【作 者】孙鑫、张世海:信阳师范学院传媒学院
【摘 要】以人工智能为核心支撑的内容自动生成技术给出版业带来一系列深远影响。它把知识进行形式化和逻辑化处理之后,深度渗透到包括自然科学、社会科学和人文艺术在内的内容生产领域,其作品质量越来越接近人工水平。由于人工智能属于互联网文化的一部分,自动生成内容的商业模式趋向多元化。内容自动生成技术将重新界定图书内涵、改变出版业的组织结构,并提升知识生产和传播的效率。
【关键词】出版业;自动生成技术;深度渗透;商业模式
2019年4月3日,施普林格•自然(Springer Nature)集团宣布该公司出版了人类历史上第一本由机器自动生成的书籍《锂离子电池:机器生成的当前研究摘要》(Lithium—Ion Batteries:AMachine—Generated Summary of Current Research)。为挑战技术创新的潜力以及追求新闻效应,斯普林格•自然坚持在所有环节和一切细节方面都避免人工参与。施普林格•自然产品数据和元数据管理总监亨宁•舒恩伯格称,在出版领域,内容的创新方式正在发生变革,最初完全由人创作,后来发展到人一机混合生成内容,而完全由机器自动生成内容的图书是人类出版史的一个重要里程碑。[1]
在自然科学领域,知识的呈现具有形式化和逻辑化的特征,自动生成技术在提炼知识方面有很大的运用空间,尤其在从巨量信息中根据设定的要求抽绎某类知识方面,甚至比人工检索和归纳更有优势。此外,在人文社会科学领域的核心内容创作方面,自动生成技术也已深度渗透,由此产生的商业模式问题以及对整个图书出版业的革新意义非常值得深入探究。
一、技术渗透:从自然科学出版到人文社会科学
出版出版业是以内容为核心的文化产业,从以往的出版技术史看,内容一直是人类智力活动的结果,技术只能起到外围辅助作用,它主要用来提升出版各环节的工作效率和质量,但是内容自动生成技术正在打破各个禁区。
1.科技领域自动生成技术系统渐趋完善
《锂离子电池:机器生成的当前研究摘要》一书背后累积性的技术研发已持续多年,2019年自动生成图书的横空出世只是“冰山一角”。它的主要技术支撑来自德国法兰克福大学应用计算语言学实验室,斯普林格与他们合作开发了Beta Wnter算法,这种算法使用聚类程序把数字形式的源文档排列成逻辑连贯的章节,再为它们创建论文摘要,所使用的文献主要来自斯普林格的自有内容平台SpringerLink。摘要中所涉及的引文用超链接标示出处,读者如果想深入探究可以随时链接追溯。该书还按照严格的学术著作规范创建了序言、目录与参考书目。
早在2015年5月,施普林格・自然集团就推出了科研图谱(SciGraph)服务,它储备的数据极其丰富,几乎囊括科学研究的所有环节,包括元数据、使用数据、文献数据、机构信息、会议信息和作者信息等类别。他们研发出包括叙词表、本体、分类法等在内的多种知识组织工具,能多粒度全方位地准确表征多源资源。“其中的NPG本体(NPG Ontologies)使用OWL2语言进行语义建模,共定义73个核心类和250个属性,以支撑科学知识发现、科学内容存储、科学文献出版。”同对于一般的科研成果,他们能迅速进行验证,比人工更客观准确地判定其价值和实际影响力。他们还与全球范围的技术公司进行深度合作,如Digital Science在核心基础结构方面提供支持,Ontotext公司为其提供语义标注等技术,这些工具能自动结构化处理科学文献,抽取其中的潜在知识转化成数据。科研图谱还能通过语义关联拓展知识的边界,自动提炼新知识,加速不同领域的知识融合。亨宁•舒恩伯格希望建立一个最尖端、最强大的关联数据集成平台,“通过为各类内容增添价值,提升内容的可发现性,为科研人员、作者、编辑、图书馆管理者、数据科学家、科研资助机构、会议组织者等提供相关的数据工具和服务”。[1]把这些信息自动转化成出版物的各种技术非常完善,其流程也很通畅,这种内容自动生成技术已经被全球多家科技公司掌握,并在持续改进中,预计未来自动生成图书会越来越多,这将会对科技出版业产生更大影响。
2.社会科学出版领域的自动生成技术走向成熟
在自然科学或工程学科的知识呈现中,文本是由概念与逻辑组织的具体知识,可以用人工智能技术进行解析并从逻辑关联中发现新知,由机器自动生产出有出版价值的新文本。在时政和财经新闻界,消息的标题、导语、主体、背景和结尾都有固定的结构,机器对各种数据的比较和分析也更精确,因此这也成为自动生成技术较容易突破和取代的领域。
作为社会科学的一个分支,新闻传播领域的自动生成技术应用越来越广泛。2014年3月170,美国洛杉矶发生地震,《洛杉矶时报》在地震发生3分钟后发布了机器人自动生成的新闻。美联社从2014年7月开始采用Automated Insights公司的自动写作软件写作有关公司季度财务的新闻。2016年,今日头条和北京大学计算机研究所联合研发的Xiaomingbot被运用到里约奥运会的报道中,每两秒生产一篇新闻。自动生成技术还能完成比一般消息更复杂的财务数据分析、数据可视化以及趋势预测等工作,并在不同信息模式之间自由转换。美国叙事科学(Narrative Science)公司推岀的Quill平台能够将数据和图表转化成自然语言,比如将某个公司一个季度的财务状况输入之后,它能分析该公司现状及未来趋势,其速度和准确率都远远高于人工。德勤会计师事务所创新部董事克雷格•马拉斯金称,Qmll平台使他们更高效地从巨量数据中筛选出有价值的信息,并提供深刻的洞察。当前Quill的技术还在持续改进,研究者还能将人类不同个性的表达方式融入文本生产过程中,使作品越来越具有人性化特征,增强阅读的愉悦感。[3]
新闻领域的自动生成技术使信息生产效率大大提升,同时互联网的便利快捷使信息生产的主体越来越多,这是信息数量无限增多的重要原因,同时信息的过载又导致跟自然科学领域一样的问题:受众想从纷繁的信息中理出头绪越来越困难。受众这种对结构化和逻辑化信息的需求又为社会科学出版领域自动生成技术的进一步应用提供了发展动力。
当前,很多社会科学领域的出版商或发行代理商已开发岀自动生成技术并运用到岀版实践。我国的龙源期刊网以汇聚和分发人文社会科学知识为特色,他们建立了一个人工智能平台——“知识树”,它能利用平台自有知识产权的文献积累,根据初始定义的内容按照某种设定的模式自动完善剩余部分。运营人员说他们可以在两个小时之内编辑完成一本图书,然后与京东、当当、亚马逊、今日头条等网络平台对接,并根据平台的需求加工成各种形式的出版物。[4]当然,有价值的社会科学成果主要取决于研究者的创造力融入文献收集、数据分析与因果关系建构的全过程,这些方面目前还很难由技术自动生成,但是在一般的社会舆情监测与自动分析、地域概况与地方特色总结、个人或群体行为信息的抓取与行为预测等领域的多个方面,自动生成技术都已经远超人类,其分析手段越来越智能化,自动生成技术出版社会科学著作将不会是太遥远的事情。
3.内容自动生成技术渗透到人文艺术创作领域
在艺术与人文领域,一些独出机杼的表达,如意象的营造、隐喻的设计、生命的体验、心灵的直觉、灵魂的召唤、历史与人性的反思、想象力的驰骋等,背后都有极其复杂的心理机制,目前人工智能技术尚难深入解析和模仿。但是这些领域的各个障碍也正在逐步突破,并取得一些进展,未来的发展势头也非常迅猛。
2016年3月,清华大学语音与语言实验中心宣布他们研制的写诗机器人“薇薇”通过了“图灵测试”。它的代表作之一是《早梅》:“春信香深雪,冰肌瘦骨绝。梅花不可知,何处东风约。”青年学者张一南认为该作品达到了中上水平:“下字用力,少年人学诗宜如此,然锻炼过甚,终非上善。”但是研发人员对薇薇未来的发展潜力充满信心,“相信之后薇薇一定会更进一步,争取在未来超过人类!”[5]
作家韩少功认为,智能机器人写作只是“一种高效的仿造手段,一种基于数据库和样本量的寄生性繁殖,机器人相对于文学的前沿探索,总是慢一步,低一档,属于跟踪者和复制者的性质”。[6]这个见解非常深邃,但是即使在一流作家中,前沿探索性的文学作品也很罕见,在娱乐性通俗文学层面,目前自动生成技术创作的作品能达到中上水平。IBM公司的人工智能技术曾模仿宋朝诗人秦观的《金山晚眺》创作了一首《偶得》,两首诗每一句的第一个用字完全相同。
《金山晚眺》:西津江口月初弦,水气昏昏上接天。清渚白沙茫不辨,只应灯火是渔船。
《偶得》:西窗楼角听潮声,水上征帆一点轻。清秋暮时烟雨远,只身醉梦白云生。
韩少功把它们拿到某高校,让30多位文学专业的研究生进行鉴别,他们大都不能准确判断。而能够鉴别出的人也都是凭借一些小细节的逻辑问题,比如“西窗楼角”指示的是两个有冲突的地点;秋夕雨中的帆不能用“轻”字形容;“清秋暮时”四个字中的“秋”字应该用仄声字。[7]除此之外,专业的研究者再难挑出其他明显的瑕疵。令人深思的是,现代人工智能技术融合了物理学、生物学、神经科学和认知科学等多种学科知识和技术,以上问题都可以逐渐得到解决。
二、自动生成内容的商业模式:开放获取、多元转型与传统方式
1.互联网背景下自然科学岀版的开放获取理念
自然科学领域自动生成内容的商业模式深受开放获取(Open Access)理论的影响,它根源于一个悠久的科学传统和互联网技术。科学界有一个优良的传统:研究者愿意在学术期刊上无偿发表他们的研究成果,以促进知识传播和进一步的科学探索。互联网技术使科研成果的传播成本降至最低,因此在互联网时代,在理论上可以解除科研成果的获取障碍,让它们更好地推进研究、丰富教育,使所有学术共同体的成员,无论贫穷还是富裕,都能共享同样的成果,在智识交流和知识探索中将人类凝聚成一个团结的共同体。任何出版机构试图垄断科学共同体创造的知识并从中获取过多私利都要经受学术伦理和互联网精神的双重拷问。[8]
2011年,精通黑客技术的23岁哈萨克斯坦女孩亚历山德拉•埃尔巴克彦搭建起Sci-Hub,帮助研究者绕过出版商的付费墙免费获取论文。爱思唯尔等科技出版商称他们不仅接收论文,还组织同行评议,并对论文内容质量进行保障,支付了大量成本,收费是合情合理的。而亚历山德拉则自比“学术罗宾汉”,她说自己问心无愧,对于无数像她那样的穷学生来说,下载一篇科研论文最多支付30多美元的费用,简直是对学习的打击性关税,她还援引联合国《人权宣言》称:“人人享有分享科学进步及其带来的益处的权利。”耐人寻味的是,Namre杂志于2016年将她评为十大人物之一,这显然对她的行为有肯定褒奖倾向。[9]2016年欧盟竞争力委员会(Competitiveness Council)要求到2020年,所有在欧洲发表的、由欧盟公共机构资助的科学论文都免费开放。[10](13)
既然原创的学术论文被要求开放获取,未来以公开发表的自然科学论文为文献来源,运用自动生成技术对这些文献进行加工而自动编辑出版的图书,如何建立商业模式仍然是一个亟待深入探讨的问题。斯普林格•自然集团目前遵循的是开放获取的原则,他们把《锂离子电池:机器生成的当前研究摘要》制作了纸质版和电子版两种形式,其中的电子版免费提供给SpringerLink的读者群体。
2.科技类自动生成内容探索商业模式的多元转型
虽然科技类出版公司自动生成内容商业模式的逻辑可以纳入开放获取的分析框架中,但是它背后的软件开发、大数据服务器运营与维护、科技管理人员的薪资等也是一笔巨大的成本。对于自动生成内容的基础论文来源,向作者收取出版费是另外一种可能的商业模式,这样可以部分弥补自动生成内容的成本,因为现在各类科研基金种类繁多,一般都允许出版费的支出,对于资深科研工作者来说不会构成障碍。但是这种模式可能会使岀版商降低审稿标准,让一些质量不高的成果得以发表,以获得更多版面费。对于一些还没有充裕研究资金的学术新人来说,这笔支出也是不小的负担。[11]
目前,全球很多国家以公共财政为主要资金解决办法,同时鼓励各类科研及慈善基金参与,以及企业界和私人捐赠。普莉希拉•陈和她丈夫马克•扎克伯格共同创立的慈善机构“陈一扎克伯格倡议”(Chan Zuckerberg Initiative)于2017年收购了加拿大的麦塔公司(MetaInc),该公司研发的人工智能技术能高效地阅读很多领域的科技文献,判断其学术价值,预测未来的引用情况,并自动生成逻辑简洁清晰的内容,科研人员通过阅读这些结构化的信息能在短时间内吸收新知识,把握本学科的动态。[10](20)
很多科技出版商,像爱思唯尔、斯普林格等的商业模式朝两个方向延伸。一方面向下延伸,从以前汇聚、编辑和发布原始科研论文转向信息和数据分析。科技岀版商汇聚了海量的原始科技信息,这些信息经过他们先进的人工智能技术进行结构化处理后能自动生成具有商业价值的新内容,可以有偿提供给学术界和企业界。另一方面向上延伸,他们为研究者和科研机构提供流程化服务。他们利用信息中枢的地位,为研究者的研究方向确立、研究设计、数据处理和论文写作提供帮助;他们熟悉各研究机构的学术专长、人才结构、科研基金需求方向等信息,能针对性地提供个性化服务。
爱思唯尔正在谋求将公司主要盈利业务转向信息和数据分析,并将自己描述为一个信息和数据分析公司,其所有期刊和图书资源都支持文本与数据挖掘(Text and DataMining)。它还于2017年并购了普拉姆分析公司(Plum Analyics),以增强学术指标分析能力。何(佝凭借原创技术进行信息整合,自动生成有价值的新内容,并销售这些内容的行为在科学伦理上较少有争议,对于这些新内容,岀版公司既可以建立独立的商业模式,也能以免费的形式分发,并把这项服务纳入公司的整体产业链中,通过间接方式获得补偿。
3.人文艺术领域自动生成内容的传统商业模式
在人文艺术领域,自动生成内容的知识产权集中于出版社,这些内容有一定的艺术价值和商业价值,能满足特定受众群体的阅读需求,因此多采用售卖内容的传统商业模式。
前文分析了清华大学语音与语言实验中心和美国IBM人工智能技术的古典诗歌创作,这些创作在当时还属于技术测试阶段,没有进入商业领域。但是在文艺领域人工智能自动创作内容的商业化很早就开始了。虽然各种门类的艺术形式千姿百态,但是每一种艺术体裁都有其内在共性,可以被总结成规律性的知识。一旦有规律可循,人工智能技术就有了发挥的空间。2008年,一群计算机专家开发的程序创作了小说《真爱》(True Love),并在圣彼得堡出版公司出版,这部小说以日本作家村上春树的风格改写了列夫•托尔斯泰的名著《安娜•卡列尼娜》。2013年,麻省理工学院教授尼克•蒙特福特用自己编写的电脑程序创作的小说《世界时钟》(World Clock)在美国出版。
诗歌是最具个性化和创造性的艺术体裁之一,也是商业化难度比较高的出版领域。但是,每个作者个人的思维方式、遣词造句风格以及一个特定时代作者群体的整体风格,都可以进行适度的量化分析,这也为人工智能的模仿性创作打开了突破口。2017年,湛庐文化出版了诗集《阳光失了玻璃窗》,收录了139首诗歌。出版方宣称该书是人类出版史上首部由机器人创作的诗集,这个机器人被取名“小冰”,它被设计了人工智能感官系统,用了100个小时“阅读”了20世纪20年代以来500多名中国现代诗人的所有作品,学习这些作品的语言风格、意象营造和情感表达方式。一位专业的文学评论家研究了这些作品后认为,“小冰”虽然“绝无人类生命体验的温度波动,天然缺失需要倾诉的情感向度”,“然而毕竟模仿众多优秀诗歌,至少会有一些节奏尚好的诗歌”。[12]这本书在很多网络平台的销量都相当可观,盈利应该是没有问题的,也许相当一部分读者是出于好奇,或者岀于学术研究而购买,但是将来自动生成技术创作出有更高艺术价值和商业价值的作品是可以期待的。
三、自动生成技术在出版业中的革新意义
学者匡文波认为,以人工智能为核心的自动生成技术系统对出版业的影响主要表现在四方面:优化和再造岀版流程;革新人工选题策划的低效率状态;直接提供出版内容;逐渐降低出版成本。[13]
以上四个方面主要体现在出版业内部业务流程,而出版业是一项具有综合性影响力和渗透性的文化产业,自动生成技术引入出版业还将改变图书的定义、出版业的人员结构和竞争形态,并提升知识创造和传播的效率。
1.重新界定图书内涵
出版学家林穗芳认为:“书籍是用文字、图画、声音或其他符号按一定的主题和结构系统组成一个独立的整体,以印刷或非印刷的方式复制在供携带的载体上以向公众传播的作品。”[14]《锂离子电池:机器生成的当前研究摘要》完全符合这个图书定义,斯普林格把它称为“图书是应该没有疑问的”。除了符合图书的定义,它还符合学术著作的定义。2012年我国新闻出版总署在一份文件中将学术著作定义为:“作者根据某一学科或领域的研究成果而撰写的作品。这些作品或在理论上有创新见解,或在实践中有新的发明,或具有重要的文化积累价值。”[15]
欧内斯特L.博伊尔将学术的形式分成四类:原创性的发现类学术、综合性的继承类学术、实用性的应用类学术和教学性的传播类学术。[16]斯普林格出版这部书的价值主要体现在综合集成方面。问题是,以往所有的学术著作,无论是个人独著还是多人合著,基本都有署名作者,但是技术自动生成著作在最基本的作者问题上却难以认定。国内出版的自动生成内容已经遇到法规问题,《阳光失了玻璃窗》在申请书号时,主管部门要求登记作者,并提供作者身份证号,最后这个问题通过特事特办解决了。[17]我们可以把某个智能机器人取一个拟人化的名称,但是在人文艺术领域,作者签售、作者访谈、作者参与书友会等互动形式是阅读文化的重要组成部分,智能机器人如何应对这些问题?可以说,自动生成技术在岀版领域带来的一系列挑战才刚刚开始。
2.改变出版业的人员结构和竞争形态
当自动生成技术越来越多地运用到出版领域,不仅是科技类出版社,一般的人文社科类出版社也都需要大量计算机和人工智能技术方面的专业人才。湛庐文化出版的机器人诗集《阳光失了玻璃窗》邀请了美国国家工程院外籍院士沈向洋作序推荐,不是因为沈向洋拥有精深的文学造诣或者鉴赏水平,而是因为他能以专业技术证实这部诗集的“科技含量”,这种推荐方式在文学出版领域也是罕见的。
日本出版公司Books & Company引进大量计算机和人工智能方面的人才,并以他们为主导,以文学类人才为辅助开发自动生成内容。他们通过深度挖掘读者的阅读偏好确定岀版的题材和方向。然后像高等学府作家班的教育模式一样培养人工智能作家,先让它们学习基础文字和遣词造句,并以名家经典和网络素材作为学习模仿对象,研发人员实时调整和深化其写作能力,直到技术能理解并熟练运用自然语言。这些基本功训练扎实之后,研发人员再让人工智能技术学习小说的基本结构和故事要素的编织,作品初步成形后由人工审读和修改,最后作品基本能达到二流作家的水平。[18]
古典文献出版以前被认为是纯文史领域,但是在当前的背景下,一些自动生成技术也成为竞争的焦点。尹小林因为兼具古典文献素养和计算机知识,并成功开发出古典文献的自动标点和自动比对等技术,成为古典文献岀版领域的领军人物。[19]可以说,自动生成技术将是未来出版业竞争的重要阵地,改变岀版社人员的知识结构和新引进人才的专业结构,加大技术研发的投入将是未来出版业的必然选择。
3.提升知识传播和创新效率
出版业历来都是知识创造和传播的基础性产业,它的技术变革将很快传递到学术界,成为促进科学研究方式变革的催化剂。在科学研究中,数据的收集和总结是一项基础性的积累工作,它能为进一步的科学研究提供必不可少的参照。但相对而言,这种工作缺乏创造性,以往大都是博士生在教师的指导下把这项工作当作基础性的学术训练,它会耗费大量的时间和精力。在科技成果数量相对较少的情况下以人力完成这种工作尚可承受。但是在当前浩若烟海、质量参差不齐的科研文献中,快速阅读相关领域的全部成果,判断其质量优劣,并围绕一个主题梳理一个逻辑清晰的线索就是一项极富挑战的工作。自动生成图书有两个特点明显优于人类的写作:第一,它能在最短的时间内穷尽所有文献,这一点是人工方法望尘莫及的;第二,按照既定的设计框架,它搜集信息的方式能始终保持高度的稳定性。因此,在文献综述性的图书中,经过高度智能化程序设计的自动生成图书的价值可能会高于一些急功近利的作者所撰写的拼凑之作。
以上文论述的自动生成图书《锂离子电池:机器生成的当前研究摘要》为例,在2016年至2018年的三年间,锂离子电池研究领域平均每年有将近18000篇论文发表。如果阅读所有这些论文,平均一天阅读20篇,读完一年的文献也需要900天。自动生成技术使该领域的研究者能简明快速地浏览和消化以往研究成果。因此,亨宁•舒恩伯格称该书的出版开启了“科学岀版的新纪元”并不算夸张,它同时也以出版技术革新大大提升了知识的传播和创新效率。
参考文献:
[1] Springer Nature.SN SciGraph:A Linked Open Data plat form for the scholarly[EB/0L].[2019-04-21].https://www.springernature.com/gp/researchers/scigraph.
[2]宋宁远.面向智慧数据的科学知识图谱构建一以SciGraph为例[J].科技与出版,2017(11):18.
[3] Tableau Conference.Create Natural Language Generation(NLG)Applications To Automate Reporting[EB/0L].[2019-04-21].https://narrativescience.com/products/quill/.
[4]任晓宁.人工智能玩出什么花样[N].中国新闻出版广电报,2017-07-17(005).
[5]清华大学实验室作诗机器人“薇薇"通过图灵测试[EB/0L].[2016-03-21].https://www.guancha.cn/TMT/2016_03_21_354505_3.shtml.
[6]韩少功.当机器人成立作家协会[J].读书,2017(6):10.
[7]张宗子.秦观的诗和电脑的诗,孰优孰劣[EB/0LJ.E2018-01-03].http://wenyi.gmw.cn/2018-01/03/content_27255950.htm.
[8] Budapest Open Access Initiative[EB/OL].[2002-02-14].https://www.budapestopenaccessinitiative.org/read.
[9]威尔•斯图尔特.女"侠盗”偷取千万付费论文免费分享下载者中国最多[EB/OL].[2016-03-04].http://world.people.com.cn/nl/2016/0304/cl07182-28170690.html.
[10]徐丽芳,王饪.开放科学的挑战与因应:2017年海外科技期刊出版动态研究[J].科技与出版,2018(2):13-20.
[11]贾小龙,梁凯鑫.版权视角下的学术期刊开放获取及其发展建议[J].数字图书馆论坛,2018(9):6.
[12]谢雪梅.文学的新危机一机器人文学的挑战与后人类时代文学新纪元[J].学术论坛,2018(2):15.
[13]匡文波.人工智能时代出版业的变革之道[J].出版广角,2018(1):7-8.
[14]刘光裕.中国出版史的对象、范围与分期[J].陕西师范大学学报(哲学社会科学版),2008(3):69.
[15]新闻出版总署.关于进一步加强学术著作出版规范的通知[EB/OL].[2012-09-04].https://baike.so.com/doc/7239280-7468452.html.
[16]叶继元.学术图书、学术著作、学术专著概念辨析[J].中国图书馆学报,2016(1):26.
[17]黄洁,徐伟伦.人工智能高速发展挑战法律应对能力[EB/0L].[2019-04-11].http://www.legaldaily.com.cn/fxjy/content/2019-04/11/content_7827124.htm.
[18]杨扬,张学骞.人工智能技术环境下曰本出版业的创新实践[J].出版发行研究,2018(9):84.
[19]陈菁霞,尹小林.尹小林:古籍数字化是我的事业和理想[N].中华读书报,2015-11-11(007).