【作 者】杨铮:辽宁工程技术大学研究生院;刘麟霄:辽宁工程技术大学传媒与艺术学院
【摘 要】近年来,随着大数据技术的完善、互联网覆盖范围的扩大,尤其是5G时代的到来,人工智能作为一种科学技术与产业融合最为贴近的方式,被各应用领域关注并投入使用。出版产业内容生产的传播属性与人工智能的科技属性有着天然又必然的一致性,出版业应积极研究人工智能的新思路、新技术、新模式。文章从基础技术、海量数据、核心算法三个方面,指出基于群体智能的编辑业务流程和出版管理流程的再造,数据并非生产结果、优质内容才是所需,以及基于核心算法的有效出版与定制服务。基于上述实践,文章总结出目前出版产业智能化发展可能面临的问题及由此引发的思考。
【关键词】人工智能;出版产业;流程再造;群体智能;核心算法
随着大数据技术的完善、互联网覆盖范围的扩大,尤其是5G时代的到来,人工智能作为一种科学技术与产业融合最为贴近的方式,被各应用领域关注并投入使用,汽车、医疗以及教育行业使用较为超前和普遍。在新闻资讯领域,机器人撰写新闻稿并进行推荐发布也已不是新鲜事。早在2017年,一则由人工智能机器人撰写的题目为《四川九寨沟地震,中国地震网机器人写稿,用时25秒》的信息就让大众了解到了人工智能距离新闻业、距离日常生活居然这么近。[1]我国《新一代人工智能发展规划》(以下简称《规划》)发布预示着人工智能被列入国家级重要发展战略层面,成为未来国际各领域竞争的关键点。《规划》提出,要举全国之力,在2030年抢占全球人工智能制高点,总体达到世界领先水平的战略目标。[2]这一目标是对我国各行业、各领域涉入人工智能的鞭策和激励,同时也预示了未来产业重点发展方向。作为出版产业,其内容生产的传播属性与人工智能的科技属性有着天然又必然的一致性,因此,在人工智能时代来临之际,出版业需要明确方向,积极拥抱人工智能的新思路、新技术、新模式。
一、人工智能环境下出版产业的可能性实践
关于人工智能,美国斯坦福大学人工智能研究中心尼尔逊教授这样定义:“人工智能是关于知识的学科——怎样表示知识以及怎样获得知识并使用知识的科学。”[3]美国麻省理工学院温斯顿教授认为“人工智能就是研究如何使计算机去做过去只有人才能做的智能工作。”两位学者均从技术和信息的角度诠释了人工智的用途及发展,我国学者也纷纷从岀版实践层面展开研究,对岀版+人工智能进行了分析研究。张新新认为出版+人工智能是未来岀版的新模式和新形态。[4]孙赫男认为学术和专业岀版与人工智能技术结合具有先天优势。
事实上,不论是新模式、新形态,还是学术出版与人工智能技术的结合,都不可避免地会对整个岀版产业进行破而后立的涅槃式重塑,推动出版产业更加快速地推进数字岀版工作的进程,进而实现从出版管理流程、内容生产模式到创新业态形式与个性服务理念的蜕变与进阶。
1.基于群体智能的出版流程再造
人工智能进入出版具体工作,先是各环节业务流程的变革与再造。目前我国传统出版产业多釆用较为传统的出版生产模式,如策划调研、编辑校对、印制、运输、销售等,每个环节均需耗费相当的人力、物力、财力。而数字出版生产模式相对于传统出版生产模式,虽然节省了印制、运输等传统环节,但增加了数字内容技术转换、传播平台构建等环节。早在2015年,我国就提出实现部分中央媒体传统出版与数字出版流程一体化的转型目标,但至今仍没有落实。而人工智能时代下的群体智能概念或许是融合不同出版业态、整合出版资源的一种有利方式。
《规划》中多次提到群体智能这一概念,具体包括四方面的基础理论和八方面的关键共性技术。目前,关键共性技术已有突破,在很多领域得到充分运用,如基于群体智慧的维基百科、基于全民问答的知识共享、集合民众智慧的开源软件等。在出版领域,主要集中在业务流程及管理机制两个板块。
(1)岀版业务流程的再造。出版单位需以互联网、5G技术为背景,嫁接相关领域知识体系,整合出版社内部资源,基于出版社内部的编校共同体,实现数字化协同生产,进而实现岀版业务流程的再造。具体来说,首先,在策划选题初期,基于群体信息精炼化形成的知识体系,对选题方向和作者选取进行的范围性选择,可以很大程度上避免选题的不确定性和盲目性。其次,在编校环节,以信息源为节点,对编排内容进行专业的智能化编辑,通过这些知识标引,岀版内容将会按照已设定的编辑规范,同步组合成纸质图书版式、数字图书版式以及知识信息来源库等多个版本。英国出版科技集团Advance的复合出版系统,已具有了人工智能的雏形。该系统储备有传统图书编排、电子图书编排、音视频制作,以及数据库信息录入等功能,可以对同一内容同时进行多产品形态的生产。[5]再次,借助出版社内部形成的协同编纂系统,可实现校对工作的数字化,最终建立数字技术校对文字、语法等语言内容,对存在问题提出质疑,校人员校对是非、明确导向,对提出问题做出解决的人机交互校对模式。最后,基于群体智能的信息量不断上涨,岀版产业可通过知识计算、深度搜索及可视交互等核心技术获取大量外来信息,同时出版单位本身作为知识信息提供源,也可支持并上传大量动态、高质量的知识信息,渐形成出版业知识服务大数据中心,进而勾勒出跨学科、跨领域、拥有多种数据类型的跨媒体知识图谱。
(2)以出版业态为重心的管理流程革新。出版产业是以内容开发与生产为核心的知识型产业,人工智能环境下,内容的获取与生产方式发生着变革,对应的出版单位管理流程也必将发生改变。出版单位管理流程的再造,关键要素是明确需要发展壮大的、具有巨大潜力的优质业务板块以及岀版单位自身未来可能的发展走向。不论从国家层面,还是市场反馈,人工智能都很可能会是未来出版领域的蓝海市场。因此,岀版单位有必要尽早做好管理流程的转型准备,根据受众市场以及智能技术发展,对岀版业务流程中不同环节酌情进行增减、取消、合并、简化,以确保管理流程能够合理及时指导业务流程,实现各出版业务环节首尾衔接、布局合理、高效运转。
2.以数据为源的内容生产方式变革
数据是第三次人工智能浪潮的最根本要素,也是实现智能化技术应用的原始基础。阿尔法狗在与人类第一次较量失利后,连战连胜,最终战胜了人类棋手就是人工智能根据获得的数据,通过算法分析获得解决方案的最佳案例。我国出版产业是知识信息传播较为专业的载体几乎涉及各行业、各领域,因此,在数据内容的收集和保存方面有着天然的优势。近年来,新闻出版业先后推出两批知识服务模式试点单位,成果显著。2019年是中国新闻出版研究院负责推进的新闻出版大数据应用工程的第三个年头,3月21日,新闻出版大数据应用工程发出公示,全国岀版物信息管理系统采集模块项目由中国音像与数字出版协会负责,出版产业已经开始注重数据的采集与整理。[6]
早在2018年5月,国家新闻出版署便对已经组织开展的两批新闻岀版业知识服务模式(专业类)试点工作进行了总结,并确定了第三批试点单位为55家新闻岀版单位、大学和科研院所。目前,专业类试点单位已形成多媒体形态的数字资源,包括文本、图表、音视频、动画、试题、案例等。其中,图书20多万种、专利数据1亿多条。[7]可以看出,出版领域在积极尝试知识服务转型发展。然而,这种模式似乎存在一种出版产业的惯性思维,即习惯于将一本书作为一个产品、一个数据单位行销售。从知识信息角度看,这是极大的知识资源的浪费,尤其是学术类和专业类出版物。一本书,往往涵诸多知识点如果简单将该书视为一个知识单元,那么其中诸多的数据价值将会被忽略,因此,以图书为单元进行的数字岀版转型并没有充分挖掘相关图书的数据化价值,基于此的数据整理和算法分析,将难以达到人工智能技术和算法分析的基础数据要求。在人工智能时代,基于技术和算法的数据被赋予了更多的身份和要求。
(1)数据只是生产要素,并非生产结果。将数据作为生产要素看待,将每本书中的信息根据不同的标准进行碎片化分拆,一条为一个数据单位,之后根据市场要求,通过人工智能的算法分析,调取相关的知识信息并重新组合搭配,几十条或者几百条信息瞬时集合成一个数据单元,进行销售。而这最终呈现的数据单元,才是人工智能环境下,岀版知识服务的应有呈现。
(2)数据生成不是目的,优质内容才是根本。目前,海量数据充斥网络的各个角落,人们曾经乐观地认为信息充盈会丰富自身的认知,帮助人们更好地生活,然而,随着数据裂变式的增加,人们发现事实并不是这样。数据越多,越难以从中找到自己想要的内容。而这一困境,通过人工智能的先进筛选技术和基于个人需求的精准算法,可以得到解决。清华大学人工智能研究院院长、中科院院士张铁表示:“对于人工智能来说,最重要的能力是知识,而不是数据。”2018年8月,中国大百科全书出版社在第25届北京国际图书博览会上发布了第一代百科智能机器人“司南君”。该智能机器人的独特之处在于其所提供的信息不是通过后台搜索引擎检索到的众多网页信息,而是唯一的、保证准确的标准答案。在此基础上,中国大百科全书出版社将继续用优质的知识内容赋能“司南君”,并计划面向国内人工智能研究和应用领域开放调取接口,[8]助力我国人工智能产业发展。
3.基于核心算法的有效出版与定制服务
人工智能与出版产业深度融合的目的在于实现出版智能化以及服务个性化。在这一背景下,人工智能的核心算法就显得至关重要。具体来说,算法的基础来源于数据,为保证计算结果的准确性和专业性,数据的存量以及范围十分关键。出版产业使用核心算法对出版内容进行范围性框定,就需要汇集现有业态已出版的出版资源,目标用户的使用信息、使用场景以及行为规律等,综合上述数据指标,最终交集出相对准确的出版范围,[9]进而帮助岀版单位实现有效出版。
同时,在出版业务流程中,核心算法会使作者反馈信息更易于获得和整理。将作者反馈环节引入出版业务流程,出版产业则有可能实现基于个性定制内容的出版模式,一如目前得到公司基于数据、技术和算法的个性化定制岀版内容体系。罗振宇在2019年2月20日的《罗辑思维》脱口秀中提到,得到电子图书要做的,不是现有通行的输入关键词进行图书名称及相关信息的搜索,是只要输入相关名词,就会析出不同领域、不同层面关于这个名词的信息,包括一段话、一本书、一条信息等,构建出一个知识架构和图谱,帮助人们更好地理解,这才是未来出版内容的定制和个性服务要做的事情。而这些服务,必须充分使用人工智能环境下的核心算法,才有可能实现。
通过上述关于人工智能在出版产业应用的分析可以发现,其推广使用的核心目的是实现目标受众的深度学习和知识获取这一目标的实现需要人工智能各项基础技术作为硬件基础、海量的碎片化数据作为供给养料、能够根据定制需要分析数据最终组合整理为个性化出版内容的核心算法,这三部分共同构成了智能化出版的关键要素。
二、人工智能环境下出版产业发展的问题与局限
目前,人工智能在出版领域呈现出呼声高、雨点小情况,很多出版单位尝试引入人工智能技术用于出版物的开发,但不论市场反响还是销售码洋均不甚理想。造成这一情况的原因主要集中在硬件开发与技术普及不、数据整理与人工智能需求不相适应,核心算法缺少定制依据和测量数据支持等几个方面。
1.技术智能化程度较低
作为技术创新成果,人工智能本质上是对人们部分机能的模仿和增加,目的是让机器代替人工从事一些工作,以使人身解放。随着技术研发的日益精进,人工智能可以替代人类完成的事情越来越多,从繁重、危险的体力劳动,到精细、准确的各项测算,人工智能的开发潜力巨大。但从人工智能的发展程度看,目前各领域推行的人工智能技术,基本还处于弱人工智能阶段。强人工智能的超越工具型作用,实现以第一人称感受信息内容,包括意向性、命题态度,以及自由意志的充分挖掘。弱人工智能局限于人类智慧的开发程度,集中在深度学习基础上的图像识别、语言处理、音像识别、个人定制等方面。医疗、汽车领域的人工智能开发程度则基本发挥了弱人工智能的各项作用。
出版产业的人工智能开发远未达到预想的程度,尤其是技术的成熟度以及硬件的配备方面有明显差距。市上的人工智能(AR、VR)图书,更多地停留在图像呈现、注重读者交互体验的层面上,而读者个体的个性化、社会角色认同及定制智能均未能实现。
为解决这些问题,提供人工智能与岀版融合发展的技术成熟度是关键。2018年11月7日,在浙江乌镇的世界互联网大会上,新华社联合搜狗技术公司开发了全球第一个“AI合成主播”,[10]主要运用了人脸识别、三维人重建、表情建模、深度学习等人工智能技术。据悉,《规划》中提到的,与AR、VR关联紧密的虚拟现实智能建模技术作为八大关键共性技术之一,有可能获得突性进展,一旦技术问题得到解决,出版单位制作虚拟图书的成本将会大大降低,而相应的出版物智能化水平将会得到大幅提升。
2.出版资源数据化进程波折
一直以来,内容资源都是出版单位最为核心的重要资产。随着互联网技术发展以及读者阅读习惯的改变,数字化、碎片化、信息化成为内容资源储存和获取的新方式和新趋向。数据成为内容资源在信息时代的新名词,然而拥有雄厚内容资源支持的传统出版单位在数据化进程中并不顺利。
在数字出版发展初期,一些传统出版单位积极尝试将传统纸质图书内容进行数字化处理,变为电子图书,然而,这种模式很快就被移动互联网的快速发展淘汰。从内容编辑即开始同步制作电子图书的双轨道模式成为热潮,以当当网为例,几乎所有的图书都同步销售有纸质图书和电子图书。进入人工智能时代,内容资源将再次被分拆,细化成以词条为单位的微粒型数据。以整本图书为单位的数字化出版需要再次转型。截至2019年3月,中华书局经过三年的数字化开发数字古籍图书约有1200余种,合计字数累计达10亿字以上。[11]然而,以书为单位的块状内容的数字化难以达到人工智能对海量数据基于核心算法进行个性化遴选的基础性要求,从这一角度看,出版单位智能化的数据提炼,任重而道远。
3.核心算法缺少定制依据和监测数据
人工智能算法推荐需要大量的个性定制信息以及相关领域的监测数据,但我国出版产业在信息收集以及数据监测方面还未形成行业性的数据汇集平台,如用户行为数据缺失、创新技术数据缺失等,导致出版行业整体的综合性数据缺失。尽管有第三方平台,如开卷、百道等从不同板块、领域诠释出版单位各自的销售和发展情况,但这些平台更多的是基于现有数据的分析和整理,鲜少根据所掌握的数据对未来进行趋向性的预测。为能在人工智能到来的时候抢占先机,出版单位可以尝试购买数据或者委托第三方平台监测等方式,为核心算法做好数据保障工作。
三、关于人工智能应用于出版产业的几点思考
人工智能作为技术更迭的一个新阶段,将深刻影响岀版产业的长远发展,出版单位应尽早做好准备,在智化出版时代赢得站位。但在这一过程中有几个方面需引起业界关注。
首先,人工智能深入应用于出版编辑流程,会改变辑的工作方式和角色定位,这种变化会使编辑在编校节中的主体地位发生转移,进而对在实践过程中长久形成的编辑权责定位、伦理规范以及社会责任产生重要影响。[12]
其次,频繁使用人工智能进行出版选题工作,有可使选题集中在畅销书部分,忽视岀版物的社会属性,导致注重艺术价值和精神价值的文化伦理被边缘化。由于弱人工智能的智能识别并没有被充分开发,在相对有的时间内,仅能根据现有数据进行分析,缺少长久的测估算,这就可能导致同一时期的出版物出现高度同化的现象。同时,建立在数据挖掘和核心算法基础上的智能技术,根本还是以挖掘读者需求为导向的,由此也可能导致大量不良信息被推送,从而降低出版的文化价值。
再次,海量数据的储存与拥有使得出版单位能够获,但同时数据交换有可能影响个人隐私信息的保护,由于法律法规较技术、产业发展稍有滞后,存在延后期,商业机构则存在灰色漏洞,导致个人隐私泄露,使用户信息安全受到威胁。在这些情况下,都需要再次界定并明确岀版编辑工作的重心和范围,[13]在充分利用先技术的同时,坚守出版的目的和文化的本质。
参考文献:
[1]张新新,刘华东.出版+人工智能:未来出版的新模式与新形态+以《新一代人工智能发展规划》为视角[J].科技与出版,2017(12):38-43.
[2]国务院.新一代人工智能发展规划[EB/0L].[2019-04-28],https://baike.so.com/doc/26539222-27803498.html.
[3]曦月smart.人工智能[EB/0L].[2019-04-28].https://wenku.baidu.com/view/b23c2a296fdb6flaff00bed5b9f3f90f76c64dl8.html.
[4]张新新.人工智能引领新闻出版转型升级——2018数字出版盘点[J].技与出版,2019(2):44-54.
[5]向飒.人工智能对学术出版流程的再造及知识服务提升[J].中国科技期刊研究,2018(11):1091-1095.
[6]新闻出版大数据应用工程(中国音像与数字出版协会承建部分)——全国出版物信息管理系统采集模块项目竞争性磋商公告[EB/0L].[2019-05-08].https://www.zbytb.com/s-zb-c3844864.html.
[7]王坤宁.岀版业知识服务试点取得阶段性成果[EB/0L].[2019-05-08].http://media.people.com.cn/nl/2018/0815/cl4677-30230628.html.
[8]张新智.知识与智能——百科全书为机器人赋能[J].传媒,2018(22):18-20.
[9]张海生,吴朝平.人工智能与出版融合发展:内在机理、现实问题与路径选择[J].中国编辑,2019(3):225-331.
[10]新华社新闻报道中心.秒级生成海量生产,媒体大脑为进博会3天编发330条短视频[EB/0L].[2019-05-08].http://www.sohu.com/a/273896709_260616.
[11]张贺.中华书局搭建数字化整理平台,招募社会力量[EB/0L].[2019-05-08].http://www.sohu.eom/a/289682158_160261.
[12]张炯.人工智能时代的出版伦理博弈及编辑伦理价值观[J].中国编辑,2019(2):24-28.
[13]王鹏涛.出版业智能化发展研究的学术构想:关键维度与可用视角[J].新闻界,2018(11):95-100.