【摘 要】在人工智能技术的助力下,出版知识服务的供给、需求和匹配环节面临升级和重塑。人工智能技术通过优化知识服务供给质效、强化知识服务匹配能力、固化知识服务需求场景,在技术层面增强知识服务平台的输入识别和输出关联能力,在场景方面对用户的精准需求进行智能化匹配,进而在技术和需求的双重驱动下,重塑出版知识服务的新型生态。
【关键词】人工智能;数字出版;知识服务
“如果你问我未来20年最重要的技术是什么,我会告诉你是人工智能。人工智能会像二百年前的电力一样重要。”[1]1956年,以达特茅斯会议第一次正式定义人工智能术语为起点,人工智能已经经历了60多年的发展历程。2016年3月,人工智能写入中国“十三五”规划纲要;2017年7月,国务院印发《新一代人工智能发展规划》。人工智能和实体经济、线下产业的深度融合,在很多领域提升了生产、传播的效率,改变和重塑了很多行业的生态。近年来,我国数字内容产业在信息技术和移动互联发展的助推下快速升级,而在传统出版领域,随着国家对出版社数字出版转型升级的推进,知识服务的方式也在快速向数字化、场景化、移动化、智能化方向发展。人工智能技术在信息化领域和互联网的探索应用,直接影响了依托这一网络生态基础开展数字化知识服务的传统出版企业。从目前来看,人工智能技术对出版知识服务在产品端的供给环节、运营端的分发环节以及对供需两侧在场景中的匹配环节都发挥了重要作用。随着人工智能技术的不断进步,出版知识服务的产品和业态在底层被不断再造,在前台被不断升级,最终可形成技术和需求双驱动的生态重塑。
一、人工智能与出版知识服务的界定
1.人工智能技术的界定
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。在业界,计算机视觉、机器学习、自然语言处理、机器人和语音识别被认为是人工智能的五大核心技术,而国务院《新一代人工智能发展规划》中列出了七种人工智能关键共性技术:知识计算引擎与知识服务技术、跨媒体分析推理技术、群体智能关键技术、混合增强智能新架构和新技术、自主无人系统的智能技术、虚拟现实智能建模技术、智能计算芯片与系统、自然语言处理技术。从人工智能技术的主要发展方向来看,运算智能(快速计算和记忆存储能力)、感知智能(视觉、听觉、触觉等感知能力)、认知智能(概念、知识、意识等人类认知能力)这三个不同层面的分类是业界共识。本文更多从微观技术角度来探究人工智能技术对出版知识服务各环节效能的改变。
2.出版知识服务生态的界定
“2000年张晓林提出‘图书情报工作的核心能力应该定位于知识服务’的创新观点,拉开了国内图情领域研究知识服务的序幕。”[2]在出版领域,2015年3月,新闻出版广电总局发布《关于开展专业数字内容资源知识服务模式试点工作的通知》并遴选了28家出版社作为知识服务试点单位。2016年1月,国家新闻出版广电总局办公厅向中国新闻出版研究院下发了《关于同意筹建知识资源服务中心的批复》[3],从国家层面推动了出版机构以知识服务为目标的数字化转型升级工作。在知识服务这一大范畴下,本文所述及的知识服务着重于出版机构特别是专业出版领域的知识服务。
笔者认为,人工智能技术下出版知识服务生态不仅应着眼于知识服务在抵达用户时所关联影响的各个系统,还要基于知识服务从供给到需求匹配的全流程来进行考察。出版知识服务生态是由作者、出版社、平台商、技术商、知识受众等参与主体相互之间形成的各种知识服务供需关系所构成的闭环(见图1)。在移动互联和人工智能技术发展的背景下,首先,原来各主体的定位有所扩展,如作者扩展为广义范围知识提供者,出版社转型为知识服务商,读者扩展为广义范围的知识消费者。其次,原来各主体之间单一的匹配关系逐渐被打破重塑,形成了全新的生产、分发和匹配关系。总的来说,人工智能技术对出版知识服务生态的重塑,主要通过优化知识服务供给质效、强化知识服务匹配能力、固化知识服务需求场景三个方面来实现。

图1 供需关系所构成的闭环
二、优化知识服务供给质效
在出版知识服务生态中,供给方知识资源的容量、编辑细度、结构化、组织化是整个知识服务链条中的底层基础。虽然出版社具备内容资源的优势,但是在整个知识服务生态中,出版社仅仅拥有历史存量的数字化版权资源是远远不够的。在专业知识数据的海量聚集方面,很多出版社所有的内容存量资源累加也仅仅是行业领域内一个小型数据库的容量,而且很多出版社内容资源的数字转化率并不高[4]。大数据时代的数据量增长迅速且数据日益复杂,数据的无限扩张与深度学习的能力共同驱动人工智能进化发展,为优化知识服务供给质效带来了前所未有的机遇。可以说,人工智能技术在知识服务的资源采集、内容标引审核、知识组织环节中已经展现出其特有的优化能力。
1.资源采集的优化出版机构进行知识服务平台建设时,要汇聚用户所需的海量资源,就必须在原有传统图书生产机制之外,利用智能技术进行资源的扩大采集(见图2)。第一,利用爬虫技术对公共信息比如法律、行业资讯、公示公告进行爬取,但爬取来的网页信息仍然需要排重抽取、标签提取、数据挖掘和信息过滤。第二,利用参数接口对接的技术,从第三方平台调用匹配的信息资源,这一方面可增加平台的库种类,另一方面可增强已有资源的增值服务。第三,通过用户产生内容(UGC),即通过对用户在平台的评论、提问、回答、注释、批注进行采集转化,完成对内容的补充添加,从而构成新的互动知识。如“微信读书”基于移动端浏览而鼓励用户完成的批注、点评,又变成了其他用户浏览的内容。第四,利用人工智能技术对图书内容进行再挖掘。以往出版社图书在知识服务转换的过程中,都是以电子化或数字化的方式整本置入知识服务平台。而人工智能技术可以对数字图书中的特定内容进行词条提取、自动摘要,对图书内容知识单元进行拆分、标引,经过碎片化后再重组和重新聚类,突破单“本”的限制,获取以“篇、章、节、文章”等为单位的新的知识元。

图2 知识服务平台
以人民法院出版社的“法信”平台为例,其通过技术手段对接“中国标准在线服务网”国家标准接口、知识产权出版社“知识产权大数据系统”接口以及企业工商登记查询接口,从而实现用户在浏览法律文书时自动推送当事人企业的工商注册和知识产权信息。在建设“法信百科”的过程中,先由编辑人工定义新词抽取规则,再由机器自动对导入的法律、图书进行自然语言处理分析,从而从原始数字资源中自动生成百科类、定义类词条,形成新的知识元。人民法院出版社历史存量版权资源仅有约6000种图书,但“法信”平台通过版权采购、技术爬取、数据交换、智能摘要等方式,每天以两小时一次的频率更新数万篇最新文献和知识元,从而使平台总容量达到约1亿篇文献近800亿字,一跃成为法律行业内规模容量最大的法律知识资源库。
2.内容标引审核的优化
大量采集汇聚的知识资源要在发布前进行标引和审核,这仅仅依靠出版企业自身的人力是无法实现的,而运用机器学习技术建立标签模型自动对资源进行标引分类,通过词表技术进行智能审校,能够极大优化内容标注审核的质量和效率。第一,在自动标引方面,人工智能技术的应用逐步深入。如中国电力出版社的“中国电力百科网”、知识产权出版社的“中国药物专利深度加工数据库”就是利用人机结合的自动抽词、赋词技术,从拟存储、检索的图书和数字化文献资料中抽取、标引检索标志。全球四大会计师事务所之一的德勤于2016年宣布与KiraSystem(一家面向企业及律所服务的人工智能企业)合作,借助机器学习能力辅助专业事务的开展,从复杂的文件中提取有效信息,并通过机器学习不断提高识别专业语言的准确率。第二,在智能审校方面,以往出版机构对文稿内容“异同”“是非”“查重”敏感内容的审核,主要是在单本图书编审过程中利用黑马校对、方正智能辅助审校系统等专业校对软件完成。但在大数据知识服务平台中,这种针对单篇单本的审校明显无法满足需求。人工智能审校技术在互联网内容企业应用较多,比如今日头条就是主要利用人工智能机器算法承担审核工作。出版企业在建设知识服务平台的过程中,需要在后台预置关键词、敏感词表,并与搜索引擎和算法相结合,才能应对大批量内容适时更新的需求。“从当前正在研发的智能审校技术起步,到机器学习的突破性算法,再到机器可以自主地深度学习,最终实现智能审校技术的新突破”[5]。
3.知识组织的优化
在知识服务的供给层面,真正构成出版知识服务底层核心能力和门槛的,是对版权内容资源的专业知识组织。用户对于知识服务的精准化需求、知识服务的智能化推荐、专业检索路径的需求,都有赖于知识组织的不断优化。针对服务产品的不同特性,对知识内容资源进行知识组织优化的路径也不同,“专业出版领域知识服务平台资源构建的核心是基于知识体系和领域知识应用关系关联出版内容资源,根据某知识元或主题词即可获得关联资源,并获知资源之间的关系”[6]。
目前在专业知识服务领域,知识组织主要有两种路径。第一,通过领域本体和主题词表进行组织。在对出版内容资源xml和结构化后,基于内容单元抽取领域主题词和梳理领域本体,基于主题词形成主题词表,再通过领域本体和主题词表关联内容单元和出版资源,从而形成对知识资源的组织。电子工业出版社的“E知元”、人民卫生出版社的“人卫医学网数据库”等平台都采用此类路径。“在网络信息资源管理中,医学本体可起到语义导航、语义检索、语义标注及术语服务等作用。人卫社医学本体参考了医学系统命名法的架构,融合了《中国分类主题词表》医学类、国际疾病伤害及死因分类标准第十版、手术与操作分类代码、《医学主题词表》、解剖学治疗学及化学分类系统等国内外主题词表、术语表而形成。”[7]第二,通过知识体系来完成碎片化知识元的组织优化。这种知识体系不依托于领域本体和主题词表,而是和专业知识深入融合,以树状分类体系串联不同类别的知识元。比较典型的就是人民法院出版社“法信”平台的“法信大纲”。“法信大纲”是具有自主知识产权的中国法律知识分类导航体系,法律分类条目达到16万条,覆盖1400多个案由罪名,分层最深达到20层,串联了32万个法律知识元。利用“法信大纲”对各类法律实务知识元的分类聚合与串联推送功能,“法信”平台实现了一站式的法律知识方案推送(见图3)。

图3 一站式的法律知识方案推送
很多出版社在通过知识体系来优化推送上进行了有益的探索[8]。笔者基于“法信”平台的建设经验,认为从用户角度能够增加两种检索路径:一种是通过知识树的方式,按照专业分类的逻辑路径层层递进检索;另一种是利用知识体系对碎片化知识元的串联,给用户优先推荐检索词,在知识体系上命中节点所串联的知识元,进而实现语义检索的精准效果。此外,在知识服务平台和用户各种场景系统对接时,经过知识体系组织的知识元,可以通过命中节点来实现一揽子结果的打包推送,相比从海量数据中以命中关键词的形式进行冗余信息的排查,会极大提高匹配的效果。可以说,通过底层知识体系的支撑和组织,知识服务平台的海量数据具备了自己的内容操作系统。
三、强化知识服务匹配能力
在各类版权资源数字化和多载体传播的大趋势下,知识服务在供给端整体呈现过剩态势。用户面临海量信息、多重选择以及在移动端碎片化阅读场景下被动检索的模式逐渐向人工智能主动推送转化。如何让用户在海量的知识数据资源中通过最简洁的输入、最少环节的点击、最节约精力的筛选获得最精准的输出结果,是完成出版知识服务生态供给和需求两端智能化匹配的重要指标,也是人工智能技术得以优化发力的重要环节(见图4)。总的来说,人工智能技术在输入端,可以通过智能问答、文本识别、优化搜索引擎词表提高识别能力;在输出端,能够借助知识图谱、词向量、用户画像技术提高输出的多维关联能力。

图4 智能化匹配
1.强化输入识别能力
随着语音识别、文本识别、图像识别等感知人工智能技术的成熟,知识服务生态的入口端无疑要面临更多的输入方式。传统以承接关键词输入为主的知识服务平台,必须依靠人工智能技术提高对语音以及整段文本的识别能力。在语音问答识别方面,基于语音识别的智能问答技术目前在电商客服、智能家居领域都有广泛应用。但是,在知识服务领域,所响应答案的权威性、精确性和来源标注的可靠性要求无疑比百科知识类的生活问答要求更高。
目前人工智能问答技术主要是通过检索式问答、社区问答、知识库问答三种方式实现。检索式问答以检索和答案抽取为基本过程,可分为基于模式匹配的问答方法和基于统计文本信息抽取的问答方法。社区问答从大规模历史问答对数据中,找出与用户提问问题语义相似的历史问题,并将其答案返回提问用户。知识库问答通过构建知识图谱三元组,利用实体之间的关系来推理解答问题。因此,出版知识服务平台应该根据自身特点选择适合的技术方法。比如“法信”平台推出的智答板块是国内首家针对专业群体的智能问答服务平台[9],目前可对全类型法律资源(包含问答对在内的法律、案例、裁判、图书、期刊等)进行问答式检索,同时采用标准问答对、主体与意图识别两种人工智能技术,通过对用户输入内容的意图识别,判断是否要调用某个智能服务,并根据用户的指令意图自动调用对应的系统应用,解答均提供出处索引和法律依据效力提示。
在文本识别方面,出版行业的知识服务平台一般会面临两种输入识别需求:一种是来源于行业或办公系统的结构化/半结构化文本,另一种是以自然语言表述的非结构化文本。对这两种文本的识别都需要人工智能NLP(自然语言处理)和文本挖掘技术的支持。目前我国法律行业因为大量裁判文书的公开,使得人工智能的文本挖掘和机器学习技术得以处理海量数据资源。比如2018年举办的“中国法研杯”司法人工智能挑战赛[10],以海量的法律文书数据作为数据集,赋予机器阅读理解法律文本的能力,其基于人工智能技术所完成的罪名预测、法律条款推荐、刑期预测等任务已经在法律知识服务平台上开始实践应用。
2.强化输出关联能力
出版知识服务平台在接受用户输入的需求后,再向用户输出结果时,结果本身的精准、权威性,以及结果相关各类资源的紧密性,决定了用户减少二次输入的频次。人工智能技术在强化出版知识服务输出关联能力方面目前有以下探索。第一,利用知识图谱技术强化输出关联能力。Google从2010年开始致力于构建相互关联的实体及具有其属性的知识图谱。Google搜索部门负责人Amit Singhal表示:“Google在这个知识图谱支撑下,可以将网页上的单词转变为带有属性的实体,使其能够更加精确地理解语义信息,从而进行更好的搜索匹配。”国内的通用搜索引擎如搜狗知立方、百度知心等也在探索基于知识图谱的智能搜索。在国内出版界,人民卫生出版社的“人卫临床知识库”利用知识图谱在检索结果分类筛选中增加了知识分类的新维度,中国农业出版社的“智汇三农”平台利用知识图谱在检索结果的相关推荐中增加了密切相关的知识元,中国电力出版社的“中国电力百科网”设置了电力知识图谱的专门检索入口。第二,利用词向量技术强化匹配的精准性。词向量是人工智能语义分析的基础技术之一,在出版知识服务领域有多种应用场景。以“法信”平台的实践为例,其主要应用在用户输入查询词语时,以用户输入的词语为基础,结合专业词表和预先根据其他用户查询数据训练好的词语向量模型,进行相关词语的输出推荐。此外,还可以针对不同类型的文件训练出不同的词语向量模型,并将集合词频算法标定文献关键词作为特征信息,进而比较准确地建立与其他法律文献的关联。
通过上述知识图谱、词向量技术以及基于用户画像和检索日志的分析,出版知识服务平台可以在输出环节为用户提供专业、精准和个性化的推荐服务。
四、固化知识服务需求场景
在出版知识服务生态中,当供给端的资源优化和需求端的匹配技术达到一定基础时,如何与用户的使用场景嵌入是所有知识服务商面临的运营难题。在信息供给过剩和用户流量大量分流的背景下,出版知识服务平台一定要找到在数据库场景之外能固化用户知识服务需求的场景,而人工智能技术增强了与个性化知识服务场景对接的可能性。比如人民卫生出版社推出的“人卫临床助手”“人卫用药助手”APP就定位于服务目标职业群体的定制化需求,将知识服务平台的资源向移动端做精准投放。以“法信”平台为例,其这些年一直在探索从数据库的单一部署向用户各个业务场景进行融合对接。第一,利用人工智能的文本识别技术实现法律知识服务与社会新闻浏览的需求对接。读者在浏览“天平阳光”APP法制新闻时,“法信”平台会通过对新闻文本的识别自动向用户推送和当前浏览新闻相关的法律、案例、观点。第二,利用“语音识别+法条识别”技术,在法院庭审场景下,对于庭审参与人语音中涉及法条的表述,“法信”平台可快速唤醒知识库相关文本并智能推送法条原文和相关释义,支持庭审笔录的自动生成。第三,利用智能问答技术,通过小程序、机器人、触摸屏等载体,为各种法律咨询、诉讼调解、信访接待提供24小时不间断的线上法律问答服务。第四,将文本识别、法条和类案推送等功能接口开放,与法院的审判流程系统对接,实现法官办案撰写裁判文书时,通过对前置文书(起诉状、代理词、庭审笔录等)的识别匹配,在法官办公系统中自动推送关联法条、案例和法律观点,并辅助生成裁判文书。
目前,人工智能技术虽然在出版知识服务领域的各个环节有广泛的应用,但是整个出版知识服务生态的升级和重塑仍刚刚起步。人工智能技术带来了服务升级的需求和可能性,但也提高了知识服务平台建设和运营的难度。国内专业出版社知识服务平台很多刚从建设转向运营,要向国外传统专业数据库学习,要跟踪大数据和人工智能技术,还要向互联网企业学习用户运营的方法论。大数据和知识的融合处理能力、技术的可用性和匹配度以及面向移动互联时代响应快速变化的用户需求场景能力都是需要不断把握和适应的。虽然知识服务任重而道远,但是保持为用户提供精准知识服务的初心,聚焦出版社自身知识资源和编辑人员优势,通过对人工智能技术不断的探索运用,出版知识服务必将实现质的飞跃。
参考文献
[1]凯文•凯利:未来20年科技的必然走向[EB/OL].(2015-10-29)[2020-05-16].https://www.jianshu.com/p/d3b7290032c1.
[2]唐晓波,李新星.基于人工智能的知识服务研究[J].图书馆学研究,2017(13):26-31.
[3]魏玉山.建设国家知识资源服务中心助力新闻出版知识服务[J].出版参考,2017(11):5-7.
[4]冯宏声:关于推动新闻出版业数字化转型升级进入深化阶段的总体思路[EB/OL].(2018-02-23)[2020-05-16].https://mp.weixin.qq.com/s?__biz=MjM5NDA3NzYy-MA%3D%3D&idx=1&mid=2653473217&sn=4b7dad26a37ad-a8b4e2dd49450b67a64.
[5]叶延春.浅谈智能审校的基本功能和应用现状[J].传播与版权,2020(3):43-45.
[6]鲁玉玲.专业出版领域知识服务平台内容资源基础的构建[J].编辑之友,2018(5):33-37.
[7]董良广.出版企业基于人工智能开展知识服务的路径探索——以人民卫生出版社为例[J].出版广角,2017(14):16-19.
[8]谭春辉,麻晓杰,李思佳,等.基于知识图谱的国内知识服务研究的演变分析[J].现代情报,2015(3):113-119.
[9]最高法:国内首家法律专业智能问答服务平台“法信(智答版)”上线[EB/OL].(2018-12-12)[2020-05-16].https://baijiahao.baidu.com/s?id=1619636813159851183&w-fr=spider&for=pc.
[10]“中国法研杯”司法人工智能挑战赛,打造专属的AI律师[EB/OL].(2018-05-08)[2020-05-16].https://www.sohu.com/a/230846297_114877.