【作 者】刘银娣:华南理工大学新闻与传播学院
【摘 要】探讨人工智能应用给出版业带来的发展机遇,包括促进出版大数据向大机遇的转化、提高出版生产效率、促进图书发现。梳理出版业应用人工智能面临的挑战,包括读者数据的获取难题、出版规律性的发现和分析难题,以及具备出版经验的智能科学家人才缺乏问题。指出要应对这些挑战,出版业在人工智能应用过程中要注意数据驱动而非代替人类决策、训练人机交互,还要提高出版人的专业素养,识别出版市场规律。
【关键词】出版业;人工智能;大数据
随着人工智能程序“阿尔法狗”完胜九段棋手李世石,“人工智能”成为2016年最热门的科技名词。人工智能先驱皮埃罗•斯加鲁菲在《2017未来媒体报告》中指出:人工智能与机器人写作是未来媒体十大发展趋势之一。事实上,机器人写作已经成为行业现实,媒体行业对于人工智能应用的探索也早已开启,出版业也不例外。2016年年初,一篇由人工智能与人类合作完成的短篇小说《当有一天电脑写起了小说》成功通过了《日本经济新闻》“星新一文学奖”的初审。回顾出版业的发展,每一次变革都离不开技术的推动。这些技术变革既对现有的出版流程和模式形成挑战,也给出版业带来难得的发展机遇。人工智能的发展也不例外。
1 人工智能为出版业带来的机遇
人工智能给出版业带来不少发展机遇,主要包括如下方面。
1.1 促进出版大数据向出版大机遇的转化正如科学、专业和学术出版领域的内容分销商英捷特首席执行官大卫•蒙哥马利指出的,在云计算和大数据技术的推动下,出版商日益认识到数据对于出版的重要性,纷纷开始投资建立数据基础设施,以获取有关消费者和产品的海量信息。这些信息可以帮助出版商更好地了解其读者,告诉出版商读者的阅读动机和阅读行为。毫无疑问,这类“大数据”可以帮助出版商在出版产品策划、销售和营销方式上做出更睿智的决策。然而,数据如此庞杂,而且单凭人类自身的力量无法对如此巨量的信息快速有效地做出处理。因此,出版大数据中蕴藏的“知识”并未得到充分挖掘。人工智能技术则可以帮助出版商解决这个问题,将出版大数据转化为出版大机遇。
1.2 简化出版流程,提高出版效率
人工智能还是提高出版运营速度和效率的重要手段。科技出版商早就开始使用初级的人工智能技术来简化工作流程,自动化同行评审所涉及的工作任务。例如跨国科技出版商爱思唯尔(Elsevier)新的编辑系统“伊威瑟”就应用人工智能技术检查论文的重复率;根据论文内容在海量作者资源库中发现和建议同行评审人;审查同行评审人员的研究状况、科学表现以及和论文作者可能存在的利益冲突;自动给作者、同行评审撰写和发送邮件;提醒同行评审工作进度,如果在一定时间内没有得到回复则删除该同行评审,邀请备用审阅者;自动向作者发送论文录用、修改或被拒绝的通知;自动给审稿人发送感谢信。除了科技出版领域外,大众出版领域也开始运用人工智能技术进行稿件审查。例如阅文集团在编辑环节开发和应用人工智能系统进行反剽窃以及对政治、社会敏感内容和涉黄内容的挖掘和审查,极大地提高了审稿工作的效率。此外,在创造性要求相对较低的内容产品编创环节,也开始利用人工智能提高效率。例如龙源期刊网旗下的人工智能写作平台“知识树”支持个人或企业用户自行按照不同主题和关键词将知识聚合,亦即定义图书一部分内容,其后系统会自动完成剩下的内容。在“知识树”的帮助下,编辑用一个半小时就可以完成一本书的编创工作,极大地提高了内容生产效率。
1.3 增强图书发现
根据2016年9月贝瑞特-科特发布的报告,2015年美国出版的书籍数量比2006年上升了400%,达到了约一百万种。2016年,我国图书出版的品种数也达到了499884万种,与2007年的248283种相比上升了200%。然而,尽管图书出版种类上升速度如此之快,读者却表示发现自己需要的图书变得更加困难;出版社也发现越来越难为其出版的图书找到合适的读者。图书发现成为制约出版业发展最大的问题之一。作者和出版商赔钱,读者则浪费大量时间寻找需要的内容产品。这个问题单靠人力资源一直无法解决,而人工智能则可以有效促进图书发现。人工智能可以提供有意义的分析来为采购决策提供信息,或创建有效的机制将书籍与最喜欢它们的读者连接起来。例如,英科特通过制定算法分析用户的阅读模式,基于读者的阅读模式为其推荐图书。美国国家科学基金会资助的出版创新项目布克斯比则与英科特不同,它让计算机模拟每本图书读者的阅读行为,然后通过并基于内容分析来识别、量化和预测读者经验。这两种方法哪种更有效目前还没有明确结论,但是其预测准确度远超编辑和图书营销人员则是通过实验验证了的。
2 人工智能应用于出版业的挑战
人工智能在出版业的应用也面临诸多挑战:一是数据获取仍然面临困难;二是人工智能的预测需要对出版规律的确认和提取,然而目前尚未发现支持出版规律性的数据;三是人才的缺乏。
2.1 读者数据的获取难题
第三次人工智能浪潮最明显的特征是:以大数据为基石。正是由于大数据和深度学习技术的结合,才促使第三次人工智能热潮的出现。当人工智能成为生产力时,数据就成为重要的生产要素。尽管近年来出版商已经着力于建立自己的数据基础设施,也获得数倍于以往的数据,然而因为出版业过去长期采用B2B的商业运行模式,出版企业面对的是销售渠道而不是读者,因此它们并不拥有广泛的读者数据。读者数据被锁定在亚马逊、苹果、谷歌等内容分销平台手中,而这些海量的读者需求和阅读行为数据才是人工智能进行畅销书机器预测、智能化推荐等出版业应用的基础,如何从这些企业获取数据是出版商面临的一个相当大的难题。
2.2 出版规律性的发现和分析难题
2016年,朱迪•阿切尔和马修•乔克斯合作出版了《畅销书代码:轰动小说解析》一书。该书作者从市场上选取5000本畅销书,抽取图书文本和亚马逊、脸书等网上书店和社交网络平台对该书主要内容的描述和评论作为元数据建立畅销书预测算法。出版人当然希望这本书破解图书畅销的秘诀,然而很遗憾,尽管测试表明其预测准确性高于普通人类编辑,然而其准确性仍然非常低,未能完全发现畅销书的真正基因和密码。英科特宣称其为“数据驱动的出版商”,然而它采用的畅销书发现方法是让作者将其手稿上传到英科特,供平台上的读者免费阅读部分或完整内容,然后根据读者阅读量、评论和投票等参与行为确定未来的畅销书。换句话说,他们的模型是以电子方式发布书稿,看看有没有人喜欢它。这种方式未免过于简单,而且因其平台读者有限,数据偏差也是一个问题。亚马逊的智能化推荐则主要基于读者的历史阅读数据。然而,泰勒•毕肖普组织的一项读者调查显示几乎没有人对亚马逊的书籍建议感到满意。如果不理解读者为什么读某本书,不能真正发现出版业的规律性,就很难利用人工智能建立一个有效的系统去发现下一本畅销书,或做出个性化的精准推荐。
2.3 具备出版经验的智能科学家人才缺乏
《畅销书代码:轰动小说解析》的两位作者都是计算机专业出身;英科特的创始人兼首席执行官阿里•阿尔巴扎的专业是计算机科学,另一位联合创始人琳达•加芬的专业方向是设计艺术。他们不了解出版,不知道一个编辑的工作是什么,缺乏对内容价值的把握,甚至不知道如何发布或出售一本书,又怎么可能开发出一套适合出版业的人工智能应用呢?目前,专业出版人不懂人工智能技术,而那些进行人工智能出版业应用技术开发的人又大多缺乏出版经验。缺乏具备出版经验和知识的智能科学家人才,将会极大减缓出版业人工智能合理应用的步伐。
3 出版业应用人工智能的建议
人工智能在出版业的应用并非要完全取代人类编辑、营销和销售人员的工作;要让人工智能成为出版业升级发展的有效工具,需要将人类和人工智能的优势结合起来。
3.1 数据驱动而非代替人类决策
对于出版业而言,确定读者的需要是一项艰巨的任务,因为不可能大规模地追踪读者偏好。传统出版业的选题、组稿、营销和销售决策建立在编辑和出版代理人的学识、经验、直觉基础上,并据此选择出版可能会引起读者共鸣的作品。然而各国出版业广泛存在的“滞胀”现象就是这种决策失败的后果之一。艾瑞克•欧塞发表的一篇文章《制浆是出版业的肮脏小秘密》就指出传统出版商每年由于市场预测失败,至少要将其25%的库存化为纸浆。这是巨大的浪费。这也是出版业人工智能应用最大的用武之地。在选题策划方面,可以根据社会和文化热潮、互联网热点、销售数据等对选题进行智能分析;在营销决策方面,人工智能可以根据网络书店和阅读平台的销售数据、阅读数据、评论数据,帮助出版社制定有效的营销决策;在销售决策方面,基于大数据的智能分发和个性化推荐,可以做到千人千面,将读者真正需要的内容送到读者面前。然而,数据驱动决策并不意味着数据代替人类决策,人工智能只是为人类提供更科学的方法和手段。完全依赖数据决策,也许会使出版业生产出更多同质化产品。因此,最终还需要由人类在数据驱动决策和对市场的直觉判断间达到平衡,出版的最终决策权仍然应当掌握在人类手中。
3.2 提高出版专业素养,识别出版市场规律
目前,人工智能已经渗透到出版业的各个环节,从选题策划环节的畅销书机器预测、创作环节的自动化写作和编辑环节的自动化审稿,再到营销环节的智能化推荐。然而,除了一些简单的重复性工作在人工智能的帮助下实现了生产效率的提高以外,其他应用大多还处于实验阶段,尚没有哪个出版企业的人工智能应用能够真正有效地预测或创作出一本畅销书。技术在出版业中的可能性是无止境的,然而这个可能性还要依赖于人类的知识才能实现。如果出版人对于图书在市场上获得成功或失败的原因一无所知,那又如何指导机器学习的方向呢?人工智能的发展是一面镜子,人工智能并非会创作,也并非会判断、会预测,它们只会通过学习来无限模拟人类活动的某一方面;而我们则需要决定“要让人工智能像人类的哪一个方面”。这一决定需要我们对读者本身、对出版和文化本身有更深的理解。因此,要让人工智能在出版业的应用更加有效,出版商和编辑还需要进一步提升专业素养,找出导致人们爱上一本书的所有可能的原因和规律。人工智能可以将所有的数据映射到读者身上,并通过训练来不断完善和调整自己的算法,从而创作出更接近人类创作规律的作品,提高预测的准确性,以及不断优化性能来处理更加复杂的出版工作。
3.3 训练人机交互,实现人机协同
由于人工智能的介入,以前以人为主导的出版物创作、选题、组稿、编校、营销和销售过程逐步发展成智能机器参与度越来越高的人机协同的信息生产和传播过程。在人工智能技术浪潮下,人类编辑不会完全被人工智能取代,但是人类也需要重新思考和提升自身独有的优势,将文化创作者的情怀与工程师的严谨结合起来,实现价值的“向上升级”。通过引入机器承担重复、复杂和耗时的工作,让人类作者和编辑缩短认知周期,将精力用来专注于价值更高的项目。人类将处于出版过程的控制中心,指示机器遵循编辑和业务规则。机器将执行和分析大量数据,基于这些数据进行实时预测和辅助决策。在未来,让人做人擅长的事,机器做机器擅长的事,训练人机交互,实现人机协同,才能让出版人的专业主义优势和人工智能的高效智能生产更为完美地结合在一起。
正如科技视频媒体“冷聚变电视台”在其节目《我们正在迈向人工意识时代吗》中所说,“人工智能研究的原点是人脑,是人类对于自己大脑的理解的反应”,所有的规律和奥秘其实都在我们自身。人工智能可以帮助我们扩大出版范围,增强出版人的能力,但是这仅仅意味着出版工具的变化,而不意味着出版业的规则发生了变化。所以,对于出版业及其每一个从业者而言,只有更加深入地了解出版业的本质和人类获得信息和知识的本质,才能成为人工智能的主人,把握住人工智能技术浪潮下出版业获得的机遇,应对出版业应用人工智能的挑战。