【摘 要】[目的] 分析人工智能(Artificial Intelligence, AI)作为辅助工具在学术同行评议中的创新应用,提出未来发展建议。[方法] 首先通过文献调研法和案例分析法,比较国内外AI辅助学术同行评议的应用实践;其次按功能对其进行分类,并阐述其主要支撑算法;最后展望AI在学术同行评议领域的未来发展方向。[结果] 国内方面,AI推荐审稿人功能被应用于基金评审,但AI学术影响力预测功能尚停留在研发阶段;国外方面,除学术不端检测功能外,其他功能的应用均处于起步阶段。按功能不同,AI辅助同行评议可分为投稿审查、审稿人推荐和学术影响力预测3类。其未来发展方向为:评议流程和文本结构的标准化、智能算法的通用化、评议专家库和已发表学术论文数据库的集成化;最终AI将发挥评议主体功能。[结论] 科研机构与学术期刊应积极参与全文文献数据库与全球审稿人数据库等相关数字基础设施建设,加快AI在学术同行评议中的应用,进一步推进该领域的数字化和智能化。
【关键词】 同行评议;人工智能;学术不端检测;审稿人推荐;学术影响力预测
利用人工智能(Artificial Intelligence, AI)可研究开发出模拟、延伸和扩展人类智能的理论、方法、技术及应用系统[1]。弱AI是当前发展的主流,也是本文的主要研究对象。推动AI大发展已成为全球共识,中国亦将布局AI提升为国家战略。近年来AI技术在科学媒体、学术搜索、学术出版等领域催生诸多创新[2],特别是在学术同行评议领域的应用[3,4]尤为瞩目。学术同行评议是科学内部的决策程序之一,是指评议专家以一定的判断标准系统地对科学工作进行评价[5,6,7]。作为高度专业化的复杂分析和决策活动,同行评议一直以来依赖专家经验。但在学术评议中,专家会不可避免地带有偏见,并受健康、情绪等主观因素影响;受生理条件限制,专家的思维、计算速度均存在上限,易产生倦怠,影响评审质量和效率;此外,评审人的学术背景和经验各异,对同一评议对象的评审意见可能存在较大差异。而AI遵循特定算法,更加稳定,不知疲倦,且具有可融合性,因此,随着AI技术的不断发展,学术同行评议中引入AI辅助工具,以人机协同的方式来提高评议质量和效率。在AI大发展的时代背景下,研究AI辅助学术同行评议具有重要意义,能够为同行评议效率的提升、评审流程的优化、评议方法的创新提供必要的理论支撑。
编辑出版学数据科学领域的知识图谱显示,AI等新兴数据技术的应用是该领域未来的研究重点[8]。已有的相关研究主要集中于AI与出版融合、AI辅助评议的具体案例分析及AI应用于学术同行评议的算法设计3个方面。首先,国内相关研究多聚焦AI与出版融合,将AI辅助同行评议的应用嵌入整个出版业发展进程中进行宏观讨论,如:陈鸿等[9]指出AI技术与期刊发展的深度融合涉及技术与伦理的双重共振和重构,是行业发展的大势所趋;张海生和吴朝平[10]阐明AI与出版融合发展的关键要素为技术、数据和算法;刘银娣[11]认为学术出版商早已应用AI技术来提升出版过程的自动化程度,包括反剽窃和同行评审专家匹配、学术文献存取环节的智能学术搜索、学术文献质量评价环节的文献计量智能等;黄历[12]回顾了国内外科技期刊出版领域中AI技术在内容发现、生产、加工和同行评议4方面的研究和应用现状,强调不夸大、不依赖AI对人类智慧的替代,二者协同应用、互补融合,方能实现共赢。其次,AI辅助评议的案例研究有:江虎军等[13]总结了中国国家自然科学基金(National Natural Science Foundation of China, NSFC)项目同行评议专家智能指派的实践经验,认为同行评议智能化完全可行,随着相关工作的不断完善,送审质量将进一步提高;Yang等[14]开发了具有审稿人推荐、学术影响力预测等功能的可扩展智能工具Meta Bibliometric Intelligence (MBI),以缓解全球科研产出不断增长引发的审稿压力;Mrowinski等[15]分析了Journal of the Serbian Chemical Society运用自然启发进化算法——笛卡儿遗传规划(Cartesian Genetic Programming),在不增加审稿人的情况下减少了30%的评议耗时。此外,在AI应用于同行评议的算法设计方面,Price和Flach[16]回顾了实现学术同行评议关键阶段自动化的解决方案,从基于特征表示的角度重点讨论了机器学习(Machine Learning, ML)算法设计;李贺和杜杏叶[17]基于语义相似度算法,提出了学术论文创新性的智能化评价方法,并据此建立了评分系统进行实证研究。
上述研究均未对AI辅助学术同行评议的应用进行系统总结与分类。故本研究首先分析和比较目前国内外学术机构和出版商对AI辅助同行评议的应用情况;然后,从功能出发,对AI应用进行分类,并阐述实现各类功能的支撑算法;最后展望AI辅助学术同行评议的发展方向。研究方法是以“智能”AND“同行评议”、“智能”AND“评审”及“智能”AND“审稿”为检索式,搜索CNKI数据库中AI辅助学术同行评议主题相关的中文文献,并以“artificial intelligence” AND “review”及“artificial intelligence” AND “referee”为检索式,搜索Google Scholar、Web of Science中的相关英文文献,再通过人工判读筛选出具代表性的文献,然后分析、对比其中的AI应用案例。
1 AI辅助学术同行评议的应用
1.1 国内应用
AI在国内学术同行评议中的应用可追溯至1996年。夏竹云等[18]指出亟需开展决策支持系统(Decision Support System, DSS)和专家系统(Expert System, ES)等在学术同行评议中的应用研究,并以稿件管理DSS原理为基础,设计了以“知识库子系统”为核心的期刊同行评议AI-DSS,用于稿件处理过程中基于知识的推理和决策支持,其中知识表示采用产生式规则;推理机的推理方式为向前推理,即自库中取出某规则的前提部分,与评议结果数据库中的“事实”进行匹配,若匹配成功,则该规则结论成立并转入下一条规则,重复上述过程直至转入最终的规则,从而实现辅助审稿决策功能。
清华大学和同方知网出版集团先后研发了基于全文的“学术不端文献检测系统”“科技期刊学术不端文献检测系统”“社科期刊学术不端文献检测系统”“大学生论文管理系统”和“学位论文学术不端行为检测系统”等检测平台[19]。上述系统对文本剽窃的检测已达一定水平,并实现了对公式、表格的检测;同时正在集中测试与优化图片剽窃、伪造检测的相关技术。知网学术不端检测平台于2006年正式立项,2008年底上线运行,现已成为国内同类平台中应用最广者之一。类似的检测工具有:2008年4月武汉大学信息管理学院出版科学系开发的“ROST反剽窃系统”;2010年3月万方数据推出的论文相似性检测服务,现已升级为文献相似性检测服务;2010年9月,通达恒远(北京)信息技术有限公司与重庆维普资讯有限公司联合北京7所重点高等院校共同研发的维普-通达论文检测系统,现已更名为维普论文检测系统[20,21]。
早在十几年前,国内各类科学基金项目管理机构已尝试运用智能技术辅助多项工作[22,23]。近年, NSFC引入评审人AI指派系统,成为科学基金评审流程改革的全球领导者[3,4]。过去5年,NSFC收到的申请数量以每年10%左右的速度增长;2018年送审数量达22.5万份,接近美国国家科学基金会的6倍。为缓解审稿压力,NSFC的同行评议专家AI指派系统利用自然语言处理(Natural Language Processing, NLP)技术抓取在线学术文献数据库和科学家个人网页,收集潜在审稿人的学术出版和/或科研项目信息,通过语义分析比较申请书和潜在审稿人的研究方向,并结合信誉数据遴选出合适的审稿人。实践结果表明,AI指派效率约为人工指派的285倍;2013年AI指派的专家熟悉度百分率比2011年人工指派的高6.5%;且评议专家的认真程度明显提高[13]。但目前该AI系统仅限于抓取中文网站信息,未来将向同时抓取中英文网站信息的方向发展。除计划开发跨语言检索功能外,NSFC还将在未来5年建立同行评议信用体系。AI的参与大大提高了送审效率,有助于避免人工送审过程中的偏见和审稿人信息泄露。外国机构纷纷效仿,如挪威研究委员会利用NLP为约3000份的科研申请书分组,并与评审小组进行最优匹配[4]。
1.2 国外应用
Statcheck算法是一种检查按美国心理学协会(American Psychological Association, APA)格式撰写的文档中统计方法是否有误的开源算法,用R语言编写,于2015年由荷兰方法学家Michèle Nuijten和心理测量学家Sacha Epskamp共同开发[24,25]。使用者可下载软件包,或登录网站http://statcheck.io/,上传APA格式论文的HTML或PDF文件(大小不超过100 MB),完成统计方法审查。审查内容包括:(1)P值的一致性。从论文中提取统计数据并重新计算P值,若计算值与文中P值不同,则被标记为“不一致(Inconsistency)”;若文中P 值高/低于常用阈值0.05或0.01,而Statcheck的计算值相反,则标记为“严重不一致(Gross Inconsistency)”。(2)检验统计结果的四舍五入是否有误。如t=1.45对应于t=1.445——1.454,Statcheck计算该范围内的所有P值,若文中P值落在上述范围内,则标记为一致。(3)单侧检验检测。如经Statcheck计算为单侧检验,且文中出现“单侧”(One-Tailed)、“单向”(One-Side)或“定向”(Directional)等关键词,则标记为一致[25]。目前Statcheck算法主要在心理学类期刊编辑初审中应用[26,27,28,29]。单篇心理学论文平均包含约11个P值,由编辑逐一核实约需10 min,而Statcheck算法仅需几秒。同时期刊也鼓励作者在投稿前自查,以提高统计报告的准确性。然而,德国实验心理学家Thomas Schmidt认为Statcheck算法仅适用于APA格式,只能计算61%的统计检验P值。他计算得出该算法的“灵敏度”仅为52%,故“作为研究工具是不可接受的,自动扫描大量论文后得到的结果更不足为信”[24]。Statcheck算法的开发者为此辩解:智能工具有时的确会发生错判或漏判,在当前技术水平下尚不具备人类审查的判断和纠错能力,其应用需要与人工结合[30]。
与Statcheck算法类似,StatReviewer也用于统计数据审查,还能按IMRAD结构标准检查论文内容的完整性,可检查多领域不同论文格式和表达风格的稿件,最终生成机器评议报告[31]。StatReviewer已于2018年6月嵌入Aries Systems开发的Editorial Manager投审稿系统[32]。
CrossCheck于2007年底推出,是由CrossRef首创并与iParadigms公司共同研发,帮助学术出版商审查学术论文原创性的工具,它提供英文论文与已发表论文重复度标记服务,作为判断学术不端行为的参考,其软件支持来自iThenticate[33]。另,Frontiers于2018年推出的AIRA[14]整合了iThenticate、Ada(一款文字检查工具)和内部自定义算法,实现投稿审查和审稿人推荐的功能。AIRA根据一系列稿件质量标准,对语言表达问题、疑似文本剽窃及其他学术伦理问题进行标记;可识别潜在审稿人,并检查编辑、审稿人、作者之间是否存在潜在利益冲突。目前,AIRA已嵌入Frontiers Review Forum,并通过持续学习而不断优化,从而能让编辑、审稿人和管理团队专注于更重要的工作,并适时作出关键决策[14]。
丹麦AI技术公司UNSILO运用NLP与ML分析学术来稿[34,35],提炼论文的结论和观点,形成内容总结[36],主要功能是重新归纳论文观点并提炼关键词,识别被作者忽略或夸大的信息;同时,它还能推荐审稿人。目前UNSILO已完成对PubMed Central数据库的学习,未来将继续抓取Web of Science数据库全文,进一步扩大学习范围。UNSILO已与ScholarOne投审稿系统合作。
Meta是专门从事科技文献大数据分析的AI公司,旨在将ML方法应用于学术文献数据库,以远超人类的速度、规模和准确性来组织、预测并理解科技创新。该公司推出的MBI可在出版前对稿件学术影响力进行预测,其预测成功率是人类编辑的2.5倍;在识别影响力排名前1%的“明星论文”时,其表现同样优于人类编辑,成功率是人类的2.2倍[37]。图1所示为MBI的预测模型。该模型首先处理新投稿并提取基于元数据的论文特征,含作者过往论文、学术影响力、引用和所属机构等,以及更深层次的论文特征,如分析流程、实验设备等;上述特征与基于文本的主题分布特征构成稿件的总体特征。虽然期刊影响力也会对稿件引用产生较大影响,但MBI未将任何期刊信息作为评价参数。之后,总体特征组合将被输入深度神经网络(Deep Neural Network, DNN),用以预测稿件的本征因子(Eigenfactor)、3年被引频次,并判断是否为“明星论文”[38]。Highwire已与Meta合作部署MBI,Aries Systems也已将其集成至Editorial Manager。

图1 MBI影响力预测模型示意图
Iris.ai公司于2015年在NASA Ames研究园内成立[39],为应对学术“信息过载”,采用智能算法向科学家们精准推送学术论文。2017年底Iris.ai开始筹建基于区块链和AI技术的透明同行评议及出版服务社区——艾尔项目(Project Aiur)[40]。该项目中AI用以确保论文发布和同行评议过程的自动化、智能化;区块链技术用于构建代币激励机制,在平台内为审稿人的审稿工作支付报酬[41]。此外,科学家们还可使用平台工具,将其论文与超过1.3亿篇OA论文进行比较并持续完善。这些技术和工具将有助于激励审稿人参与评议并提高评议质量。
综上,AI辅助同行评议在国内外均已有诸多应用,涵盖了同行评议流程的各个环节。表1比较了国内外AI辅助学术同行评议的应用。
表1 国内外AI辅助同行评议应用的比较
年份 | 国别 | AI | 嵌入的审稿系统 | 应用者 | 主要功能 |
2007 | 美国 | CrossCheck | 无 | CrossRef与iParadigms合作开发 | 论文学术不端检测,支持英、中、韩等语种 |
2008 | 中国 | 知网学术不端检测平台 | 无 | 国内期刊与作者 | 学术不端检测,主要针对中文论文,也可检测英文论文 |
2012 | 中国 | NSFC智能指派系统 | 无 | NSFC | 通过语义分析比较基金申请书和潜在审稿人的研究方向,并据此遴选审稿人 |
2012 | 丹麦 | UNSILO | ScholarOne | Clarivate Analytics、Taylor & Francis、Springer Nature、BMJ、 Wiley | “格式检查”确保论文符合期刊要求及规范;运用NPL和ML分析稿件,概括论文重要观点与结果,并重新给出关键词;与既有文献比对,排查雷同观点,使编辑更易作出判断;智能匹配审稿人 |
2015 | 荷兰 | Statcheck | 单刊的审稿系统 | 主要为心理学学术期刊 | 评估论文中的统计数据和方法,但目前仅能检测APA格式的稿件 |
2015 | 美国 | Project Aiur | 无 | Iris.ai | 基于区块链和AI技术的透明同行评议及出版服务 |
2016 | 美国 | StatReviewer | Editorial Manager | Aries Systems | 评估论文中的统计数据和方法 |
2016 | 美国 | MBI | Editorial Manager | Aries Systems | 估计单篇稿件的未来被引频次和学术影响力 |
2016 | 英国 | Wizdom.ai | 无 | Taylor & Francis | 文献数据库挖掘,提取不同学科和概念之间的联系,可视为一种知识图谱工具 |
2017 | 英国 | Penelope[42] | 无 | 作者、学术期刊(如Addiction) | 检查稿件的节标题、伦理声明、基金信息、摘要、图表和参考文献格式等是否符合期刊要求;核查论文中的统计数据 |
2018 | 瑞士 | AIRA | Frontiers Review Forum | Frontiers | 标记论文中的语言表达问题,进行学术不端检测,并推荐审稿人 |
由表1可知,AI辅助同行评议的国内外应用涵盖结构合理性审查、学术不端检测、审稿人推荐和影响力预测等多种功能,其中,学术不端检测功能的开发和应用最早;AI推荐审稿人功能最先由NSFC引入基金评审;影响力预测功能在国内学术同行评议领域尚停留在理论研发阶段,仍未有实际应用;除学术不端检测功能外,结构合理性审查、统计数据检验、推荐审稿人、影响力预测等功能在国外学术同行评议领域中的应用均处于起步阶段。
2 AI辅助学术同行评议的分类
因弱AI仅执行单项任务,并无统一的目标和方法,为执行学术同行评议中不同类型的信息处理功能,AI技术需提供不同的虚拟机。根据上述国内外应用的不同功能,可将AI辅助学术同行评议分为投稿审查、审稿人推荐和学术影响力预测3类。
2.1 投稿审查功能
学术论文在同行评议前需通过初审环节,包括结构合理性审查、方法学审查和学术不端检测等,以满足送审的最低要求,具体包括:结构合理,内容完整;格式符合规范;统计学方法选取得当;所采用的统计学方法与文中数据相符;无剽窃及其他学术不端行为等。
(1) 结构合理性审查和统计数据检验。结构合理性审查属于目标明确、逻辑关系清晰的任务,可由AI程序来执行及优化。经关键词扫描,AI可先按引言、方法、结果、结论(Introduction, Methods, Results and Discussion, IMRAD)的结构或其他结构标准区分并标定论文小节,再针对每一小节运行算法,检查相应信息的完整性[43]。
AI还可使用文本挖掘方法挖掘论文中的统计检验数据,并据此验证统计数据的完备性和一致性,如:重新计算P值并比较新计算值与文中的值(P值是被广泛使用但有争议的统计显著性指标);全文搜索统计误差;查找统计方法描述的完整性,当存在多组比较时,检查样本量不同或/和样本分布不一致的条件下,是否说明了P值校正算法。Nuijten等[44]使用AI检查了1985—2013年8种实验心理学期刊中30000余篇论文的统计数据,历时不到2 h,结果表明:约50%的论文存在至少1个P值不一致;13%的论文P值严重不一致,这将导致不重要/重要结果的重要性被高/低估,这种高/低估通常与研究人员的直觉或预期一致,因而不可避免地引入系统偏差。出现该问题的原因有多方面,如数据录入错误;数据插入统计计算工具时四舍五入不正确;检验方法的误用,如应使用单侧检验却用了双侧检验等;最坏的情况是P值操纵(P-Hacking),即通过数据操作技巧,使P值呈现符合预期的统计学(非)显著特征[45]。上述错误通常无法经人工初审快速而有效地检出,但AI凭借其强大的算力则有望解决此问题。
(2) 学术不端检测。论文学术不端行为可分为剽窃(包括观点、数据、图和音视频、研究(实验)方法、文字表述、整体剽窃,以及对他人未发表成果的剽窃)、伪造、篡改、不当署名、一稿多投、重复发表、违背研究伦理等[46]。目前能被AI检测出的学术不端行为仅限于文字表述、整体和观点剽窃、重复发表(统称为“内容剽窃”)以及图片剽窃与伪造等;而对剽窃研究(实验)方法和未发表成果的检测,分别因比对方法和比较对象很难获取而难以检出。此外,在一稿多投的情况下,除非不同期刊之间已实现投审稿系统联网,或恰好邀请了同一位审稿人,否则也无法检出。
编辑无法处理大型文件并检索与疑似剽窃内容相似的所有原始来源。随着计算机技术的进步,基于自然语言分析的内容剽窃检测算法在近十几年来得到了快速发展,主要利用信息检索(Information Retrieval, IR)、跨语言IR(Cross-Language Information Retrieval, CLIR)、NLP、计算语言学、AI和软计算(Soft Computing)等相关领域的最新技术来解决实际问题[47]。内容剽窃检测是对文本进行语义特征分析,发现疑似抄袭的部分并提供相似源文档的过程,判定原理是计算被测文档与参考文档集之间的相似度[20]。按被比较文本之间语言的同质性或异质性,内容剽窃检测可分为单语(Monolingual)检测和跨语言(Cross-Lingual)检测,其中单语检测又分为外部(Extrinsic)检测和内部(Intrinsic)检测,前者根据单个或多个源文档来评估相似度,后者通过独立分析被测文档的写作风格等进行评估。图2为3类检测过程的示意图。按不同的检测角度,通过比较、处理和评估文本特征来识别内容剽窃的方法可分为8类:基于字符的方法(Character-Based Method)、基于向量的方法(Vector-Based Method)、基于语法的方法(Syntax-Based Method)、基于语义的方法(Semantic-Based Method)、基于模糊的方法(Fuzzy-Based Method)、基于结构的方法(Structural-Based Method)、基于计量文体学的方法(Stylometric-Based Method)和跨语言剽窃检测方法(Method for Cross-Lingual Plagiarism Detection),各方法的描述详见文献[47]。

图2 单语内部检测、外部检测和跨语言检测过程示意图[47]
关于图片剽窃与伪造的检测,已有的报道较少,主要分为增强特征提取方法和相似性检测方法2类:增强特征提取方法通过提取图注或图中的文本信息来理解图片所包含的内容组件,再进一步比对;相似性检测方法通过比较图像像素并设定阈值来判断图片是否存在剽窃嫌疑[48]。
剽窃检测系统的表现依赖于后台用于比对的文献数据库体量,因此建立包含尽可能多已发表文献的超级知识数据库是保障检测结果全面可靠的前提。建议编辑对同一文档使用不同单位开发的检测系统进行多次检测;同时要理性判断AI的评价结果,对具体情况具体分析,不可片面地仅凭文本相似度高即判定为剽窃。值得注意的是,目前商业学术不端检测系统已被广泛用于作者自查,从而催生了更隐蔽的剽窃形式——智能剽窃(Intelligent Plagiarism),即试图通过文本处理、翻译和借用思想等不易察觉的方式隐藏、混淆、改变原作品内容。现有抄袭检测系统只侧重于文本内容剽窃的检测,而对智能剽窃及音视频的抄袭却力有不逮[49],故针对上述智能剽窃的检测工具研发是今后AI辅助功能的研究方向之一[50,51]。
2.2 审稿人推荐功能
自20世纪90年代以来,学术论文和基金申请书的AI推荐审稿人算法被不断改进,主要是利用已发表论文的作者共现网络来确定最合适的审稿人[49],以缩短送审时间,发掘更多新审稿人,减少人工送审可能带来的偏见或舞弊,并自动识别潜在利益冲突[52]。
审稿人推荐算法可分解为对象匹配和约束条件两部分[16,53]。以论文评审为例:给定论文集合P和审稿人集合R,且|P|=p和|R|=r,目标是找到一个二元矩阵Ar×p,使Ar×p中的元素Aij在第j篇论文被分配给第i个审稿人时取值为1,否则为0。Ar×p同时满足多重约束条件,如:(1)每篇论文至少有c位审稿人(c可指定为2、3或其他数值);(2)每位审稿人分配不超过m篇论文,m=O(pc/r/r);(3)审稿人不会收到有利益冲突的论文。分配后,每一论文-审稿人配对的匹配程度在评分矩阵Mr×p中由一非负数描述,数值越大表示匹配度的评分越高。评分矩阵可由单一或组合来源确定。推荐审稿人的最佳方案为:在满足所有约束条件的情况下,使得∑i,jAijMij最大,记为max(∑i,jAijMij)[53]。为跨学科论文或基金申请推荐审稿人颇具挑战[3]。仍以论文评审为例,假设一篇论文涉及AI和编辑学2个主题,按常规算法,AI推荐的多名审稿人均为编辑学专家,并无AI领域专家,此时可将集合R替换为集合Rc,使每一属于Rc的c元组(Tuple)代表可能推荐的c位审稿人;还可增加对论文涵盖主题的显性约束,将多重维度纳入最佳审稿人推荐的定义中[54,55]。此外,其他类型的约束条件也被视为可增补或替代的约束求解算法,如审稿人地域分布、推荐的公平性等。因此,AI可作为有效的技术工具帮助遴选审稿人,但AI偶有出错,最终审稿人的指定还要由编辑等同行评议管理者把关。
2.3 学术影响力预测功能
论文学术影响力评估与预测是评价学者、机构、期刊、国家等学术实体影响力的基础工作[56]。具有高影响力的学术论文被视为科研前沿成果,是促进学科发展的关键。利用AI算法预测论文未来的影响力并提前识别高影响力论文,对编辑预测学科领域发展方向、确定约组稿主题、选择重点推介论文等具有指导意义。但目前国内外对高影响力论文的界定并无统一标准,多使用论文的间接指标,如被引频次,替代论文本身的学术影响力[57]。
AI领域的ML方法可通过挖掘数据的潜在规律来实现学术影响力预测功能。ML方法主要分为3类:监督学习、无监督学习和强化学习(Reinforcement Learning)。监督学习的典型问题是分类(Classification)和回归(Regression),其训练样本的数据同时包含特征和标签2类信息。分类算法中的标签信息为离散值;回归算法中的标签信息一般为连续值。监督学习目标是根据映射函数产生相应预测,映射函数由不同的应用需求决定。按映射函数不同,监督学习算法可分为NN、支持向量机(Support Vector Machine, SVM)、决策树、逻辑回归和决策森林等。无监督学习的典型问题是聚类(Clustering)和降维(Dimensionality Reduction),其数据样本只有特征信息而不包含标签信息,无需前期实例训练。聚类是指利用样本特征,将具有相似特征的样本划归到同一类别,而不关心类别本身,代表性算法有K-means等;降维是指采用线性或非线性变换,将原高维空间中的数据点映射到低维空间,从而获得关于原数据集的低维表示。强化学习指机器通过理解最佳选择来制定决策,即如何将情境映射到动作,使决策效用最大化。常用于预测论文、学者等学术影响力的ML方法有NN[58]、SVM[59]、Markov模型[60]及XGBoost[61]等,其中,NN模型比Markov模型更适合大规模数据处理;SVM模型既能用于回归,又能用于分类,且比NN更适合少量数据的情况。此外,基于NN和SVM的混合模型能获得比单一模型更好的预测效果。XGBoost模型的预测效果比上述模型都好,但需要调试大量参数。论文学术影响力的预测及排序通常由基于图的模型实现[62],PageRank算法[63]是一种代表性算法,其本质是基于单变量Markov链的随机游走算法,但该算法仅适用于同构网络,信息单一,预测结果差强人意。为此,研究人员在单一引用网络的基础上加入作者、期刊等实体,构建异构学术网络, 并在各实体影响力相互增强的假设前提下,提出了基于多变量Markov链的随机游走算法,同时加入了时间信息来提高算法的预测能力。目前先进的论文影响力预测算法为MRCoRank 算法[64],它将时间和文本信息加入异构网络,基于论文、作者、期刊和文本特征的影响力相互助力的假设,构建了影响力排序模型,并在包含150余万篇论文的ArnetMiner数据集上进行大量实验,结果表明,MRCoRank算法可实现在文献计量网络中同时对论文、作者、期刊和文本特征等未来影响力进行排序的功能。
综上,AI在学术同行评议流程的初审、送审和稿件评审阶段可分别实现投稿审查、审稿人推荐、学术影响力预测等辅助功能,在提升评议效率的同时,为评审人提供数据维度的重要参考信息。
3 未来展望
AI参与学术同行评议带来了学术评价的范式革命,标志着科学内部的质量控制机制由单纯依靠专家主观评判向人机协同下的专家决策转变。国内外应用AI辅助同行评议的目标是:保证学术同行评议组织者和管理者在掌握并运用AI技术的同时,高效、透彻地分析学术同行评议流程各环节的深层细节。AI辅助学术同行评议提供了解决同行评议问题的新方法和新工具,其应用范围将在未来进一步扩大。
当前,AI 辅助同行评议的意义在于节省评审人的时间,将重复、耗时的例行工作交由机器完成。AI的成功应用基于一个前提和两个条件。一个前提是指学术同行评议流程的标准化和文本结构的规范化。评议流程的标准化保证了AI程序的通用性;文本结构的规范化,如用IMRAD结构将论文标记为不同的部分,便于AI提取信息并进行有针对性的分析、评价。两个条件是指软件和硬件条件。软件条件指同行评议算法和评议专家库、已发表学术论文库等数据基础设施;硬件条件指AI运行的计算平台,平台的算力直接决定了AI应用的可靠性。两个条件中,算法为AI的坚实内核,其发展分两个层次:首先是将已有AI算法思想与学术同行评议实践需求相结合,体现AI技术的应用性;其次是以学术同行评议的特定需求为出发点,开发新算法,实现AI的科学性。此外,评议专家库、已发表学术论文数据库的建设需要寻找成本低廉的实施办法,在不侵犯评议专家与作者隐私和知识产权的前提下全面收集学术同行评议的相关数据,创建并维护相应数据库。与AI在其他领域的发展相似,AI辅助学术同行评议也需要伦理学家和法律学者的参与,通过划定伦理边界、制定法律法规,确保审稿人和作者及其他利益相关者不致遭受损失。
AI辅助同行评议的发展方向有:评议流程和文本结构的标准化、智能算法的通用化、评议专家库和已发表学术论文数据库的集成化。未来,随着NLP、认知与推理、ML等领域的不断发展,AI将拥有足以比拟人类的认知水平和理解能力,在学术同行评议中不再仅充当辅助角色,而是有望发挥评审主体功能,即在评议中人与机器共同讨论学术成果的科学性和创新性等。不过,机器终究取代不了人,AI在同行评议领域的应用与发展是为了不断增强人的评议能力,使人更有效地作出决策。
4 结语
“AI具有溢出带动性很强的‘头雁’效应”[65],由其引领的新一轮科技革命和产业变革方兴未艾。在学术同行评议领域,AI作为人工审查的辅助工具已应用多年。AI推荐审稿人在NSFC基金评审中得到充分应用;但国内AI对学术影响力的预测还停留在研发阶段,尚未有实际应用。在国外,除学术不端检测功能外,AI辅助结构合理性审查、统计数据检验、审稿人推荐和影响力预测等功能均处于应用的起步阶段。按目前国内外AI辅助同行评议应用所实现的功能,可将其分为投稿审查、审稿人推荐和学术影响力预测3类。
AI辅助同行评议将继续向评议流程和文本结构的标准化、智能算法的通用化、评议专家库和已发表学术论文数据库的集成化等方向发展。未来,AI或可发挥评审主体功能。
对学术同行评议组织者和管理者而言,自主开发AI算法并搭建数据库和应用平台并不经济,可行的做法是从全流程项目管理的角度,确定所需AI辅助同行评议功能的优先级,制定需求方案,然后与AI技术公司合作,实现期望功能。应当注意,AI算法输出的质量在很大程度上取决于全文文献数据库的体量和审稿人数据库的信息质量。构建数据准确、信息完备的中、外文全文数据库和全球审稿人数据库需经年之功,因此相关管理部门应把握时机,合理统筹规划科研及学术出版领域数字化基础设施建设工作,从制度层面鼓励、引导搭建全球学术信息相关数据库,保障此类数据库的建设准确、高效、系统。数据库建设完成后,还应尽可能向国内科研和学术出版机构开放共享,从而培育我国学术评价领域的良好生态,加快该领域数字化、智能化步伐,为AI在学术同行评议领域中的广泛应用奠定坚实基础。
参考文献
[1]谭铁牛.人工智能的历史,现状和未来[J].智慧中国,2019(Z1):87-91.
[2]范军,陈川.人工智能在欧美学术出版领域的应用及其启示[J].河南大学学报(社会科学版),2020,60(1):144-149.
[3]Horvat M.中国的改革与合作[J].科学,2018,362(6416):727.
[4]Cyranoski D.人工智能正在选择中国的拨款审查者[J].自然,2019,569(7756):316-317.
[5]Chubin DLE,Hackett E J.绝世科学:同行评议和美国科学政策[M].纽约:纽约州立大学出版社,2011年.
[6]张彤,周云霞,蔡斐,等.学术期刊同行评议的历史意义[J].中国科技期刊研究,2019,30(6):588-595.
[7]张彤.学术期刊开放同行评议多层次改革[J].编辑学报,2019,31(5):490-497.
[8]羊晚成,杨丹丹.[2008] 2017年春季编辑出版学领域数据科学研究[J].科技与出版,2018(5):86-91.
[9]陈鸿,刘育猛,裴孟.人工智能与期刊发展融合的潜力,挑战和实践路径研究[J].中国科技期刊研究,2019,30(3):217-224.
[10]张海生,吴朝平.人工智能与出版融合发展:内在机理,现实问题与路径选择[J].中国科技期刊研究,2019,30(3):225-231.
[11]刘银娣.学术出版领域的人工智能应用:现状,挑战与应对[J].科技与出版,2019(1):64-68.
[12]黄历.人工智能在科技期刊出版领域中的应用现状与发展趋势[M] //刘志强.学报编辑论丛.上海:上海大学出版社,2019:361-365.
[13]江虎军,郝艳妮,徐岩英,等.国家自然科学基金项目同行评议的智能化探讨[J].中国科学基金,2019,33(2):149-153.
[14]Yang L,Vembu S,Adawi A等.通过机器学习增强编辑能力:检查元文献计量智能[EB / OL]背后的数据科学.(2016-10-10)[2019-07-20].https://medium.com/@meta_6493/enabling-editors-through-machine-learning-81b528b496ce
[15]Mrowinski MJ,Fronczak P,Fronczak A等.同行评审中的人工智能:进化计算如何支持期刊编辑?公共科学图书馆ONE,2017,12(9):e0184711.
[16]Price S,Flach P A.学术同行评审的计算支持[J].计算机应用,2006,26(6):1275-1279 ACM通讯,2017,60(3):70-79.
[17]李贺,杜杏叶.基于知识元的学术论文内容创新性智能化评价研究[J].图书情报工作,2020,64(1):93-104.
[18]夏竹云,胡祥培,蓝华等.稿件处理的智能决策支持系统研究[J].中国科技期刊研究,1996,7(2):40-43.
[19]CNKI科研诚信管理系统研究中心.产品列表[EB / OL].[2019-07-06].http://check.cnki.net/Article/pro/Index.html.
[20]汪雨培,王东波.学术不端文献检测技术与系统研究概况[J].江苏科技信息,2018(23):17-21.
[21]张旻浩,高国龙,钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究,2011,22(4):514-521.
[22]李智,李敏强.关键词:基金项目评估管理 研究与发展管理,2005,17(3):106-110.
[23]冷疏影.同行评议辅助分配实验系统研究取得阶段性成果[J].中国科学基金,2013,27(3):160-162,166.
[24]Chawla D S.有争议的软件在发现心理学论文中的错误方面证明出奇地准确,2017-11-28)[2019-07-06].https://www.sciencemag.org/news/2017/11/controversial-software-proving-surprisingly-ac curate-spotting-errors-psychology-papers
[25]Nuijten M B. R软件包“ statcheck”:从文章中提取统计数据并重新计算p值[EB / OL].[2019-06-30] .https://mbnuijten.com/statcheck/https://mbnuijten.com/ statcheck /.
[26]Freedman LP,Venugopalan G,Wisman R.可再现性2020:进展和重点[J].F 1000研究,2017,6:604.
[27]Sakaluk JK,Graham C A.在《性研究杂志》上促进利益冲突的透明报告和统计分析[J].性研究杂志,2017,55(1):1.
[28]实验社会心理学杂志.JESP尝试使用Statcheck [EB / OL].[2019-07-04] .https://www.journals.elsevier.com/journal-of-experimental-social-psychology/news/jesp-piloting-the-使用状态检查.
[29]PsychOpen.PsychOpen使用Statcheck工具进行质量检查[EB / OL].(2017-07-06)[2019-07-06].https://www.psychopen.eu/news/article/psychopen-uses-statcheck-tool-for-quality-check/
[30]PubPeer.关于“心理学中统计报告错误的普遍性(1985-2013年)”的评论[EB / OL].[2019-06-30].https://pubpeer.com/publications/2B9320F0BCF7929F5 75AA29450599F
[31]Ariessys.StatReviewer报告[EB / OL].[2019-07-15] .https://www.ariessys.com/wp-content/uploads/StatReviewer-Sample-Report.pdf.
[32]StatReviewer.为期刊和作者提供自动统计支持[EB / OL].[2019-07-15].http://www.statreviewer.com/.
[33]Lammey R.跨出版商原创性筛选计划[EB / OL].(2014-11-03)[2019-07-04].https://training.cochrane.org/sites/training.cochrane.org/files/public/uploads/resources/downloadable_resources/English/Crosscheck_webinar_Oct2014.pdf [34]Upshall M.将人类输入与机器学习相结合:一个案例研究[J].学会出版,2018,31(2):157-160.
[35]董文杰,李苑.科技期刊智能出版工具:UNSILO平台[J].中国科技期刊研究,2020,31(6):702-709.
[36]边疆.增强AI的同行评审:Frontiers推出下一代高效,高质量的同行评审[EB / OL].(2018-12-14)[2019-07-20].https://blog.frontiersin.org/2018/12/14/artificial-intelligence-peer-review-assistant-aira/
[37]Heaven D. AI同行审阅者释放了减轻发布负担的机会[J].自然,2018,563(7733):609-610.
[38]白羊座行销管理员.人工智能集成使发布者可以初步了解Meta Bibliometric Intelligence [EB / OL].(2016-10-17)[2019-07-20].https://www.ariessys.com/views-press/press-releases/artificial-intelligence-integration-allows-publishers-first-look-meta-bibliometric-intelligence/
[39]艾欧 Project Aiur [EB / OL]背后的团队.[2019-06-17] .https://projectaiur.com/team/.
[40]科学家的Knowles K. Blockchain接手Elsevier:互联网无法杀死的业务[EB / OL].(2018-06-13)[2019-06-28].https://www.forbes.com/sites/kittyknowles/2018/06/13/blockchain-science-iris-ai-project-aiur-elsevier-acad emic-journal-london-tech-week-cogx /#1a20af1f1e0a
[41]徐丽芳,王钰.科技内容产业的鼎新革故:2018年海外科技期刊出版动态研究[J].中国科学技术杂志 科技与出版,2019(2):13-22.
[42]Harwood J.创业故事:佩内洛普[J].透视UKSG Journal,2017,30(1):96-99.
[43]Shanahan D.无与伦比的评论?自动化方法和统计评论,2016-05-23)[2019-01-18].https://blogs.Biomedcentral.com/bmcblog/2016/05/23/peerless-review-automating-methodologic-statistical-review/
[44]Nuijten MB,Hartgerink CHJ,van Assen MAL M.等人.心理学统计报告错误的普遍性(1985-2013)[J].行为研究方法,2016,48(4):1205-1226.
[45]Chawla DS.这就是为什么超过50000心理学研究将有PubPeer条目的原因[EB / OL].(2016-09-02)[2019-07-15].https://retractionwatch.com/2016/09/02/heres-why-more-than-50000-psychology-studies-are-about-to-have -pubpeer-entries / Retraction Watch 2016.
[46]国家新闻出版署.中华人民共和国新闻出版行业标准:学术出版规范期刊学术不端行为界定(CY / T 174—2019)[J].北京:中国标准出版社,2019.
[47]Alzahrani SM,Salim N,亚伯拉罕A.了解窃的语言模式,文字特征和检测方法[J].计算机应用,2006,26(5):1175-1178 IEEE系统,人,与控制,C部分(应用和评论),2012,42(2):133-149.
[48]Eisa TAE,Salim N,Alzahrani S.现有的抄袭检测技术[J].计算机应用,2006,26(6):1175-1178 在线信息评论,2015,39(3):383-400.
[49]Rodriguez MA,Bollen J.一种确定同行评审的算法[C] //第17届ACM信息和知识挖掘会议-CIKM'08,2008年10月26日至30日,美国加利福尼亚纳帕谷.纽约:ACM出版社,2008:319-328.
[50]王文福.网络时代期刊论文隐形学术不端挖掘策略[J].中国科技期刊研究,2016,27(7):677-682.
[51]朱银周.刻意规避学术不端软件检测论文的再审查[J].编辑学报,2015,27(3):249-251.
[52]Charlin L,Zemel R S.多伦多论文匹配系统:自动论文审稿人分配系统[C].第30届国际机器学习会议论文集,美国亚特兰大:[sn],2013年.
[53]Taylor C J.关于会议论文对审稿人的最佳分配:MS-CIS-08-30 [R].费城:宾夕法尼亚大学计算机与信息科学系,2008年.
[54]Kou NM,Leong HU,Mamoulis N等.基于加权覆盖率的审稿人分配[C] // 2015年ACM SIGMOD国际数据管理大会-SIGMOD'15的会议记录,2015年5月27日至6月4日.墨尔本,维多利亚,澳大利亚.纽约:ACM出版社,2015年:2031-2046.
[55]Sidiropoulos ND,Tsakonas E.用于会议审查和会议分配的信号处理和优化工具[J].计算机应用,2006,26(6):1175-1178 IEEE信号处理杂志,2015,32(3):141-155.
[56]白晓梅.基于社会网络分析的学术影响力评估与预测[D].大连:大连理工大学,2017.
[57]王海燕,潘云涛,马峥,等.基于科学研究问题成熟度的未来高影响力科技论文的预测研究[J].情报学报,2016(1):36-47.
[58]丁筠.关键词:学术期刊影响力指数 情报科学,2017,35(2):27-32,37.
[59]李静,徐路路.基于机器学习算法的研究趋势趋势预测模型对比与分析:BP神经网络,支持向量机与LSTM模型[J].现代情报,2019,39(4):23-33.
[60]彭长生,周永明,曹丽华,等.社会网络中的影响分析:一项调查[J].网络与计算机应用学报,2018,106:17-32.
[61]Chen TQ,Guestrin C. XGBoost:可扩展的树增强系统[C] //第22届ACM SIGKDD国际知识发现和数据挖掘国际会议论文集,美国加利福尼亚州旧金山.纽约,美国:ACM,2016:785-794.
[62]樊玮,韩佳宁,张宇翔.基于网络表示学习的论文影响力预测算法[J].计算机工程,2019,45(12):160-165,170.
[63]Page L,Brin S,Motwani R等.PageRank引文排名:将订单引至网络[R].斯坦福大学:Stanford InfoLab,1999年.
[64]Wang SZ,Xie SH,Zhang XM,et al.关键词:书目网络,相互强化,未来影响 ACM关于智能系统和技术的交易,2016,7(4):1-28.
[65]人民网.习近平讲故事:人工智能具有很强的头雁效应[EB / OL].(2019-07-26)[2019-08-01].http://cpc.people.com.cn/n1/2019/0726/c64094-31256975.html.