【摘 要】[目的] 以UNSILO平台为研究案例,探讨人工智能(Artificial Intelligence,AI)技术在学术出版中的应用情况,以期为我国科技期刊提供参考。[方法] 系统总结UNSILO平台的功能及技术特点,深入分析其与出版机构的合作案例。[结果] UNSILO平台支持论文的智能评价以及主题内容的智能分类及推荐,其概念抽取技术在学术出版中具有显著优势。UNSILO具有先进的概念抽取技术以及友好、简单的界面操作,为包括Springer Nature等在内的众多出版机构提供了人机交互的智能解决方案。[结论] AI技术已经逐渐深入科技期刊的出版流程,并将为科技期刊出版注入新的活力。
【关键词】UNSILO;人工智能;概念抽取;同行评议;评价;主题内容分类;学术出版
在数字时代和新一轮科技革命的推动下,科技期刊迎来了前所未有的发展机遇,也面临着诸多挑战:(1)出版周期长,出版成本高。大部分论文从投稿到正式出版至少需要3个月的时间,平均为3——6个月,论文的格式检查、编辑、校对等过程消耗了大量的人力及时间成本,出版成本日益攀升。(2)论文审稿压力大,审稿难度增加。热点研究领域论文数量的激增导致该方向审稿人员数量不足以及审稿工作量增加;跨学科、交叉学科的兴起对期刊编辑选择合适的审稿专家提出了更高的要求,也增加了稿件的审理难度,这会影响录用论文的质量。(3)内容的增值和读者服务亟需进一步优化。如何快速地选出当前的研究热点,制定精准有效的选题策划方案,以及针对读者需求,对期刊内容进行分类、推荐并选择合理的运营模式是需要解决的两大难题。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能行为的学科,是机器学习、深度学习在实践中的应用[1,2]。随着科技的进步,AI技术与传统行业的业务融合程度逐渐加深,从而推动了传统行业场景的变革和产业链的重构[3]。中国新闻出版研究院发布的《2016—2017中国数字出版产业年度报告》中指出,AI技术将重塑出版流程,为新闻出版业的转型升级带来更多的可能[4,5],有望在学术搜索、同行评议、选题策划、精准营销、风险控制等环节发挥巨大的作用[6,7,8,9]。目前,国外已经出现了一些用于学术研究及出版领域的AI工具,如基于深度学习帮助用户筛选论文、提高检索效率的Semantic Scholar[10]和Iris[11];用于分析稿件中的统计数据和研究方法是否正确的StatReviewer[12]等。UNSILO平台[13]基于先进的自然语言处理(Natural Language Processing,NLP)与机器学习(Machine Learning,ML)技术,可突破学科的限制,普适性更强;同时集成智能论文评估、相关主题内容的智能分类及推荐等功能,并可以实现用户的个性化定制,已与众多出版机构开展合作,为他们提供出版解决方案。因此,本文选择UNSILO平台作为研究案例,深入研究其功能特点及技术优势,并进一步从其商业合作案例入手分析其在科技期刊出版中的应用场景及解决方案。
1 UNSILO平台简介
UNSILO论文及专利搜索平台于2012年创建于丹麦, 创始人为Mads Rydahl和Thomas Laursen,在自然语义分析方面具有全球领先的技术。该平台提供AI搜索引擎,通过复杂的语义算法有效提升学术内容的智能管理和评价水平,能够快速找到隐藏在语义中的相关内容[14,15]。UNSILO平台于2016年获得Infosys的投资,融资金额达200万美元。
UNSILO平台通过自然语言处理和机器学习技术进行概念抽取,可为期刊编辑、审稿专家及相关机构提供服务。目前,UNSILO已与Springer Nature、BMJ、Clarivate Analytics等出版机构开展合作。
2 UNSILO平台的功能
2.1 UNSILO Evaluate——文章的智能评价
UNSILO Evaluate提供开放的应用程序编程接口(Application Programming Interface,API),其优势是可整合到期刊的出版工作流中,提供文章的技术性检查、审稿专家匹配、期刊推荐等方面的信息,实现对文章的多维度分析。 上传文章并选择评价按钮,即出现如图1所示的界面,左侧依次是对文章的技术性检查、关键语句、相关文章、期刊匹配和审稿人匹配等模块。

图1 UNSILO 平台对文章的智能评价示例 注:此图片为UNSILO官方网站https://unsilo.ai/unsilo-evaluate/中的视频截图。
(1)技术性检查。通常情况下期刊编辑收到稿件时,会在同行评审之前执行技术性检查(也称为“格式检查”),确保其符合期刊要求以及相关的标准规范,UNSILO提供的技术性检查功能可以帮助作者和编辑快速检查文章内容,并对错误信息进行预警和提示。UNSILO对文章的技术性检查主要包括作者信息、通信联系人邮箱、关键词、基金信息、摘要长度以及学术道德规范等方面,通过设置检测标准对提交的文章进行审核,根据严重程度进行分类预警,通过审核的内容也会显示出来供编辑查看,如图2所示。

图2 UNSILO对文章的技术性检查示例 注:此图片为UNSILO官方网站https://unsilo.ai/unsilo-evaluate/中的视频截图。
(2)相关文章检索。论文具有原创性是论文被接收的关键因素,UNSILO对提交的论文进行相关文章的检索,并给出参考建议。如图3所示,界面左侧会显示所提交论文的研究领域中的经典文献、与文章主题或观点相似的相关文献以及最新相关文献等内容,同时在提交论文中高亮显示出与已发表论文相似的论述,供编辑、审稿人和作者查看,一方面防止文献漏引,另一方面通过对比,可以更快地了解文章的研究背景以衡量其创新性。

图3 UNSILO对论文相关文章的检索示例 注:此图片为UNSILO官方网站https://unsilo.ai/unsilo-evaluate/中的视频截图。
(3)审稿专家的智能匹配。期刊可以使用UNSILO的API将提交的文章与PubMed中的文章和摘要进行对比,为每位作者创建一个简介,并将文章内容与审稿专家的研究方向匹配,最终为该文章提供5位同行评审专家,推荐的审稿专家会根据匹配程度排序,如图4(a)所示。UNSILO实时创建的语义指纹不是简单的关键字匹配,而是基于文章全文内容和上下文逻辑关系,更精确地匹配潜在的审稿专家,并自动筛除具有潜在学术利益冲突的审稿专家[16]。

图4 UNSILO平台智能匹配审稿专家示例 (a)匹配的审稿专家列表;(b)每位审稿专家的详细信息 注:图4(a)来自UNSILO官方网站https://unsilo.ai/unsilo-evaluate/;图4(b)来自UNSILO 官方推特账号https://twitter.com/unsiloproduct/status/1202224713755287552?s=21。
UNSILO提供审稿专家的详细信息,包括邮箱、所在单位、相关文章发表数量、最新发表的文章及投稿期刊、投稿次数最多的期刊、研究方向与提交文章的匹配程度等内容供编辑查看,以选择适合的审稿专家,如图4(b)所示。其中,UNSILO提出了相关h指数的概念,不同于传统意义上的h指数,它与审稿专家发表的相关论文数量有关,例如UNSILO相关h指数为20,表示研究者发表了20篇与待审稿文章相关的论文,且每篇都被引用了20次及以上。由于审稿专家的研究方向往往不止一个,因此,对不同的提交稿件而言,审稿专家的相关h指数都不相同。
综上所述,UNSILO系统的审稿专家智能匹配功能具有以下特点:自动更新审稿专家的最新研究论文及电子邮箱等信息;为每篇论文计算相关h指数,以更好地匹配审稿专家;自动检测审稿专家3年内的共同作者信息等内容;API可以嵌入到期刊使用的审稿系统中。
(4)期刊智能匹配。当提交一篇新的文章时,UNSILO系统会将抽取出的文章重要概念与现有的期刊主题进行比对,推荐最合适的投稿期刊。如图5所示,该文章与PLoS ONE的匹配度最高,为86%,同时界面会显示出期刊常见的与该篇文章相关的短语以及不常出现的内容。UNSILO系统的期刊智能匹配功能可以嵌入到期刊网站中为投稿作者服务,帮助他们选择最适合的期刊,减少主题不符导致的退稿情况,另外,对于期刊集群来说,可以帮助期刊编辑将稿件推荐到更合适的期刊。

图5 UNSILO平台期刊智能匹配示例 注:此图片为UNSILO官方网站https://unsilo.ai/unsilo-evaluate/中的视频截图。
综上所述,UNSILO的智能评价服务是一个多向过程,它将期刊编辑、审稿专家和作者联系起来,为作者提供匹配度较高的投稿期刊,提升作者投稿的录用率;基于文章的智能提取进行审稿专家和期刊的智能匹配,审稿专家和期刊又可以根据文章的概念抽取来协助审稿和选择稿件,从而减少编辑部的人工投入,提高编辑的工作效率。
2.2 UNSILO Classify/Recommend——内容智能分类及推荐
UNSILO Classify是为出版商和用户提供精确的内容分类服务, 最大限度地对期刊和图书的内容进行细分以实现精确的内容打包服务,满足客户内容定制、营销活动、会议承办等方面的需求。UNSILO Classify具有简单的用户界面,可以在收藏夹中添加新的分类并选择相关概念进行文档监测,每个分类下方会显示新的监测文档、待输出文档和创建日期等信息。用户可以手动选择期刊并设置监测时间范围,针对机器生成的结果,用户可以通过拖动鼠标扩大或缩小范围,如图6所示,例如可添加机器自动丢弃的文档或者减少机器自动接受的文档,进而选择所需的文档。UNSILO系统的UNSILO Classify功能有助于消除人工管理文章内容及分类时的瓶颈,节省人工和时间成本,可减少使用者50%以上的人力投入。

图6 UNSILO Classify监测文档的管理界面 注:此图来自UNSILO官方网站https://unsilo.ai/unsilo-classify-2/中的视频。
UNSILO Classify的优势在于,其围绕一个概念主题进行内容分类。例如, 在医学领域,了解一个主题的全部同义词是非常困难的,美国国立生物技术信息中心(National Center for Biotechnology Information,NCBI)的医学主题词表 (Medical Subject Headings,MeSH)中,仅心肌梗死的同义词就有十几种[17]。当使用搜索引擎对心肌梗死(Myocardial Infarction)进行检索时,通常只会检索到概念短语简单的语法变体,而不会联系到 “Heart Attack”等内容,而UNSILO 可以很好地解决这个问题,它可根据上下文关系进行语义分析,查找主题相关内容。
此外,UNSILO Recommend API基于语义分析,可以为读者推荐与检索内容相关的论文、书籍等内容。图7所示为UNSILO Recommend为剑桥大学出版社提供的智能推荐服务,当读者在出版社网站浏览文章时,网站侧栏会显示相关内容推荐,例如期刊的其他相关文章等,这就提高了文章被发现的概率,在一定程度上延长了读者在网站上的停留时间,提高了点击率。

图7 UNSILO为剑桥大学出版社提供的智能推荐服务 注:此图来自UNSILO官方网站https://unsilo.ai/unsilo-manuscript-recommend/。
3 UNSILO概念抽取技术的优势
UNSILO平台使用先进的概念抽取技术(图8),其特点主要包括:(1)使用无监督学习的方法,自动抽取文档的语义指纹;(2)可解释的AI,改善了AI模型的性能,提高了人机互信程度;(3)语义相似性的数学模型,侧重于分析短语,并理解介词、否定词、不确定性和定语等复杂的语言特征,因此在查询检索中,基于UNSILO的向量知识模型在特征词扩展查询、关键词消歧方面具有突出优势;(4)UNSILO的命名实体识别(Name Entity Recognition,NER)模型可以识别全新的化学实体、数学公式、软件代码,以及人名、地点和组织的名称。

图8 UNSILO 对文章内容的概念抽取示例 注:此图片来自UNSILO官方网站https://unsilo.ai/technology/。
UNSILO研究人员将其概念抽取API与谷歌的云自然语言(Google Cloud Natural Language) API、微软的认知服务(Microsoft Cognitive Services Text Analytics) API、IBM沃森文本分析(IBM Watson Alchemy Language) API和亚马逊关键词抽取(Amazon Comprehend Keyphrase Extraction) API进行对比,随机选择4个研究领域(纳米技术、生物医学科学、计算机科学和食品与营养科学)的学术文章按照测试标准对每个API打分(包括相关广义概念、相关精确概念、不相关概念等内容),测评他们对不同主题文章的概念抽取能力[18]。如图9所示,UNSILO的API 在对学术文章的概念抽取方面表现最佳,其次是微软,而其他API的表现差强人意。UNSILO研究人员认为其API在概念抽取上的优势主要有以下两点:一是复合词优先的抽取策略,在准确检测短语边界的情况下,抽取的短语更有助于解释和理解文章内容;二是具有相关的语料库,UNSILO的概念抽取训练语料库存放的是学术文章,在学术文章关键短语抽取方面更具有优势,而其他API是通用的,无法训练并适应特定语料库,因而具有局限性。

图9 UNSILO API与谷歌、微软、IBM和亚马逊 API对学术概念抽取质量对比[18] 注:此图片来自UNSILO官方网站https://unsilo.ai/technology/。
4 UNSILO平台的合作案例
UNSILO平台具有可扩展云存储处理模式,可以对海量语料库进行分析;先进的概念抽取技术,以及友好、简单的界面操作使其赢得很多出版机构的青睐,目前UNSILO已与Springer Nature、Taylor & Francis Group、Clarivate Analytics、Wiley、OECD等出版机构开展了稳定的合作,如Clarivate Analytics 旗下的论文投审稿系统ScholarOne使用UNSILO的论文智能评价功能,从而为期刊编辑提供决策支持,缩短同行评议阶段花费的时间[19]。
UNSILO平台为出版机构带来的便利如下:(1)先进的概念抽取技术带来新的商业机会;(2)智能化任务处理,可提高工作效率,降低人工和时间成本;(3)智能的内容管理带来精准营销。下面以Springer Nature和Karger两个出版社为例进行讨论。
4.1 Springer Nature
Springer Nature通过UNSILO对其文章的元数据进行分析,包括文章标题、关键词等数据,并且为文章提供自动抽取的关键概念描述,使研究人员尤其是交叉学科的研究人员更快在Springer上发现自己感兴趣的相关文献,同时减少在不相关文献上花费的时间。其中,Springer Nature Nano为纳米科技领域的研究人员进行快速纳米信息检索提供服务,现提供超过25万份人工筛选整理的纳米材料信息(包括性能、应用、制备方法、形貌、生物效应等),内容覆盖纳米科技领域的最新信息并及时增补[20]。
Springer Nature Nano使用了UNSILO平台在Springer Nature研究论文集上开发的机器学习工具——Text Intelligence,实现对纳米研究人员研究方向的捕捉,同时建立和维护现有最全面的纳米相关文章的合集,涵盖ACS、Elsevier、RSC、Springer Nature、Wiley等旗下众多纳米领域相关文章及专利的检索。同时,基于UNSILO的智能语义分析对文章进行分类和描述,例如在每篇文章下方显示与检索关键词相关的文章其他关键概念,使研究人员可以快速了解文章的关键信息。UNSILO可以抽取任何相关的文章,并自动获取不同格式(Word、PDF、XML)的文件。综合语义树的分析模型已经在最终的结果输出方面实现了极高的智能化,减少了人工对文章进行分类标记的工作量, Springer Nature 的首席信息官Jan-Erik de Boer 对此赞誉:“UNSILO先进的概念抽取可以在学术文档中发现核心的描述性概念及短语,从而为读者提供极具价值的阅读建议,甚至可以有效匹配不同学科的专有名词,从而实现跨专业的内容推荐。”
4.2 Karger
Karger是总部位于瑞士巴塞尔的医学出版社,成立于1890年,每年大约出版100种期刊,50种图书以及其他开放获取期刊,Karger与UNSILO重点在内容和知识服务方面进行合作。如图10所示,在Karger的期刊网站上,UNSILO根据对文章内容的概念抽取进行相关文章推荐,读者只须点击文章标题即可链接到相关文章的页面[21]。

图10 Karger出版社Acta Cytologica期刊网站的相关文章推荐 注:此图片来自KARGER官方网站https://www.karger.com/。
此外,Karger出版社提供医学等相关主题的知识服务,建立热点内容主题,将其出版的内容关联到对应的主题上,从而为医学或药学相关领域的研究人员提供决策支持等服务。以往Karger采用人工的方式进行主题创建及内容关联,耗时耗力,且无法适应当下信息急速增长的形势。为此,UNSILO为Karger提供了自动主题聚合解决方案,首先围绕一个主题进行内容的自动抽取,根据抽取结果形成一个初步的列表。编辑可以在控制面板中对结果列表进行参数调整,选择或删除自动关联的文章,从而选择合适的内容。这个解决方案采用了AI技术结合个性化选择的方式,不仅可以快速、全面地关联主题相关内容,并且可根据用户需求进行微调,帮助Karger实现对于内容更加灵活快速和精准的管理方式。Karger电子商务发展经理Marc Schindelholz认为通过与UNSILO合作,不仅可以使他们提供更高效、准确的主题包,还可以根据需求对自动化过程进行微调,这种自动化与人工调控的平衡是十分必要的。
5 结语
AI时代,科技期刊出版模式呈现出更多层次的变化,AI技术已经应用于提高生产效率、提供决策依据、实现内容增值和有效营销等方面[22]。UNSILO平台在学术出版领域的应用为AI技术与科技期刊的深入融合提供了非常有前景的参考。本研究首先分析了UNSILO平台的两大核心功能:Evaluate API可以直接嵌入期刊工作流,为编辑提供技术检查、审稿专家推荐、期刊推荐等文章评价服务;Classify/Recommend 致力于为出版商和用户提供更好的内容分类管理及精准推送服务。在UNSILO平台功能分析的基础上,阐述UNSILO平台的技术优势及其与出版机构的合作案例,UNSILO平台先进的机器学习技术及个性化解决方案为Clarivate Analytics、Springer Nature等出版机构提供了高效的内容管理及精准的传播服务。目前,UNSILO平台仍处于发展阶段,虽然已经看到一些令人振奋的应用,但未来的发展趋势仍有较多不确定性:首先,UNSILO 平台的盈利模式仍不明晰,未来技术投入和维护如果超出合作出版机构所能提供的资金,该平台将如何与出版机构维系其应用或合作;其次,UNSILO平台目前暂不支持其他语言服务,其技术路线及模式是否适用于多语言环境仍有待考证。即便如此,UNSILO平台的出现和应用仍为我国科技期刊与AI的出版融合提供了思路和借鉴,虽然目前国内尚无成熟的AI工具应用到科技期刊出版中,但是相信随着AI技术的逐渐成熟和普及,AI技术将会在未来渗透到我国科技期刊出版流程的各个方面,通过优化内容管理及知识服务能力,为学术出版的新模式赋能。
参考文献
[1]斯图尔特•罗素,彼得•诺维格.人工智能:一种现代的方法[M].3版.姜哲,金奕江,张敏,等,译.北京:清华大学出版社,2013.
[2]王莉,宋兴祖,陈志宝.大数据与人工智能研究[M].北京:中国纺织出版社,2019.
[3]艾瑞咨询.2019中国人工智能产业研究报告[EB/OL].[2019-07-10]..
[4]中国新闻出版研究院.2016—2017中国数字出版产业年度报告[EB/OL].[2019-08-15].http:∥www.Cjiyou.net/html/2017-07/451444.html.
[5]向飒.人工智能对学术出版流程的再造及知识服务提升[J].中国科技期刊研究,2018,29(11):1091-1096.
[6]王大可,李本乾.人工智能图书出版信息分析及选题优化研究[J].出版科学,2020,28(1):61-66.
[7]刘鑫,谭彩霞.人工智能在学术不端行为风险控制中的应用[J].金陵科技学院学报(社会科学版),2018,32(3):80-84.
[8]王卉,张瑞静.人工智能技术在数字出版中的应用现状与发展趋势[J].出版发行研究,2018(2):45-49.
[9]刘银娣.从经验到算法:人工智能驱动的出版模式创新研究[J].科技与出版,2018(2):45-49.
[10]谢智敏,郭倩玲.基于深度学习的学术搜索引擎——Semantic Scholar[J].情报杂志,2017,36(8):175-182.
[11]Iris.ai[EB/OL].[2019-07-15].https://iris.ai/.
[12]StatReviewer[EB/OL].[2020-01-25].http://www.statreviewer.com/.
[13]UNSILO[EB/OL].[2019-07-10]..
[14]任翔.学术传播的数据化与智能化:2017年欧美学术出版产业发展评述[J].科技与出版,2018(2):6-12.
[15]Heaven D.AI peer reviewers unleashed to ease publishing grind[J].Nature,2018,563(7733):609-610.
[16]Upshall M.Using AI to solve business problems in scholarly publishing[J].Insights,2019,32:1-7.
[17]Medical subject headings[EB/OL].[2020-01-26].https:∥www.nlm.nih.gov/mesh/meshhome.html.
[18]Juric M,Rydahl M,Reckman H.UNSILO white paper[EB/OL].[2020-01-26].https:∥unsilo.ai/wp-content/uploads/2019/10/UNSILO-White-Paper-2019-October.pdf
[19]Clarivate[EB/OL].[2020-02-01].https:∥clarivate.com/news/clarivate-analytics-and-unsilo-partner-to-power-scholarone-with-ai/.
[20]Nano[EB/OL].[2020-02-01].https:∥nano.nature.com/.
[21]Karger[EB/OL].[2020-02-01].https:∥www.karger.com/.
[22]中国科学技术协会.中国科技期刊发展蓝皮书(2019)[M].北京:科学出版社,2019.118.