【摘 要】[目的] 探讨当前人工智能时代下,科技期刊利用智能工具、大数据自动挖掘技术、人工智能分析技术,对存在的和可能发生的学术不端问题采取的相应措施。[方法] 根据目前常见的学术不端行为特征,分析学术不端检测软件的检索现状、人工智能辅助同行评审的方式,以及审稿人身份的检测等,梳理人工智能可以参与的过程,并提出相应措施及未来的方向。[结果] 基于人工智能的学术搜索引擎、智能图像数据库,可在同行评审时引入智能分析,将区块链技术运用到实验数据记录、同行评审中,采用身份唯一识别代码、用户画像功能鉴别作者、审稿人身份等。[结论] 人工智能与出版行业融合发展是未来的方向,具有较大的发展潜力和成长空间,科技期刊需要在智能时代运用更多智能工具,在学术不端行为的预防和控制方面作出更多的努力,以发挥更大的作用。
【关键词】人工智能;学术不端;科技期刊;剽窃;伪造和篡改;虚假同行评审;区块链;用户画像
在当前科技高速发展的情况下,人工智能(Artificial Intelligence,AI)已经越来越多地参与到人们的生活中,大数据驱动知识学习、跨媒体协同处理、人机协同增强智能、群体集成智能、自主智能系统成为人工智能的重点发展方向[1]。人工智能的快速发展也为出版行业带来了新的出版形式:智能选题、智能协作的内容生产、办公自动化[2]、无纸化办公[3]、增强出版、智能化精准推送如Kudos(https://growkudos.com/)、多元数据链接共享如Scholix(http://www.scholix.org),以及OSID开放科学计划等。这些智能时代的出版产物对科技期刊发展将有着极大的促进作用。但随着互联网的广泛应用,在时间与空间上将全球的科研与学术界无限拉近,方便了学术交流与进步的同时,也让很多学术不端行为暴露在阳光下。近年来国际上大量撤稿事件频繁发生,我国出台了一系列科研诚信相关规范性政策,各大学术机构、高等院校也加强了对学术不端的惩戒。国家新闻出版署2019年5月29日发布的《学术出版规范——期刊学术不端行为界定(CY/T174—2019)》进一步规范了对学术期刊论文作者、审稿专家、编辑者可能涉及的学术不端行为类型的界定。科技期刊作为科研成果的呈现平台和传播媒介,也是暴露科研诚信问题的重要平台之一[4]。
未来,人们所面临的科研诚信问题将更加严峻,在人工智能时代,如何应用人工智能技术来解决这些问题也亟需进一步探索。美国“STM未来小组”每年对学术出版领域的技术趋势进行预测,近几年的主题均与科研诚信、人工智能相关[5,6,7]。2019年4月发布的《2023年学术出版领域技术趋势报告》中指出,未来技术趋势侧重于跨行业协作,以改善学术交流并确保研究中的信任和诚信[7]。科技期刊在新时代做好科研成果的“守门人”至关重要。而目前关于人工智能在学术不端行为中的应用研究,大多集中于对学术不端检测系统的探讨[8,9],鲜有关于人工智能时代下各种新科技是如何运用到科技期刊应对学术不端问题的研究。本文通过分析国内外最新的技术,包括如何通过大数据自动挖掘、人工智能分析、智能图像数据库的建立,以及区块链技术的运用,从而对遇到的具体学术不端问题进行分析阐述,如文字观点和图像剽窃、篡改、伪造研究数据、一稿多投、作者和审稿人身份问题等(图1),以期为后续制定出完善的应对措施提供思路。

图1 人工智能时代学术期刊应对科研诚信问题的对策
1 大数据智能检索应对学术不端问题
1.1 基于人工智能的学术搜索引擎
(1) 文字表述、数据的剽窃。这是目前最常见的学术不端行为,针对这种情况,很多编辑部已经用人工智能工具进行检索,包括中国知网的学术不端文献检测系统(Academic Misconduct Literature Check,AMLC)、万方的论文相似性检测服务、维普的论文检测系统和CrossCheck等[9]。但国内检索系统主要以中文文献为主,虽然也包含部分英文和小语种数据库,但并不全面。各大数据库均采用付费模式,基于各自收录的期刊数据进行检索,以致于各自检测的基准数据库有限。ScholarOne Manuscript投审稿平台有“外部查询”功能,可链接到Web of Science、PubMed、Google等,实现多学科综合性学术信息资源的“一键式”查询[10],但是还不能智能地给出检索结果,需要编辑进一步审查。
针对当前这种检索不全、智能化不完善的情况,未来可以采取的对策是建立一个更完善的大数据平台,平台之间共享资源,开发超越Google学术等搜索网站的基于人工智能的学术搜索引擎[11],将人工智能应用到学术搜索;还可以尝试将基于人工智能的学术搜索引擎链接到期刊投审稿系统,形成大数据智能检索数据库。这个数据库同时也应该涵盖已公开但未在正式刊物上发表的信息。
(2) 社交媒体评论观点的剽窃。目前很多学术研究的讨论经常出现在博客、社交媒体和其他类似出版商平台的地方。对于这一类活动,其是否具有学术价值?对他们观点的剽窃该如何界定?
首先,需要确认这些学术观点的学术性质,如CrossRef公司旗下的Event Data(https://www.crossref.org/services/event-data/)就为这些活动提供了原始数据记录的服务,并与DataCite合作,将为从Twitter、Facebook、Wikipedia、Research Blogging和Reddit等Web服务收集的内容分配DOI[12],这一举措将肯定社交媒体上发表观点的学术价值,保护相关学者的权益,也便于学者们后续的查阅和引用。其次,将这些数据纳入前文提到的智能检索数据库,利用人工智能技术进行检索与判断。
1.2 智能图像数据库的建立
对于图像的剽窃、篡改,目前许多期刊采用人工检查的方式,例如,Nature对提交手稿中的图像进行随机抽查,要求作者提交未经编辑处理的凝胶图像以供参考[13],但缺乏自动化检测的功能。而业界对于图像剽窃等问题的发现,大多是通过出版后同行评议网站如PubPeer、Retraction Watch爆料,才将论文涉嫌剽窃、篡改图像的情况呈现在公众面前。部分软件工具正在尝试对篡改图像进行检测,如叶青等[14]提到的艾普蕾(iPlagiarism)软件系统、美国科研诚信办公室(Office of Research Integrity,ORI)的 Droplets系统。通过这些系统的检测,可以发现图像的可疑操作痕迹,但也都有其局限性。Daniel Acuna和两位同事使用算法从760000篇文章中提取超过260万张图像,然后研发了一个自动检测工具来检测重复的图像[13]。但是人们很难在大范围内应用该工具,因为这是由其团队自主选取的论文与图像,而目前没有任何已知的收集重复或非重复图像的第三方大数据库。
未来可以在Daniel Acuna团队的实践基础上,创建一个基于大数据、跨平台、多学科、综合性、共享所有已发布图像的数据库,图片的大小目前可能会影响检测的速度,但是随着5G时代的到来,基础设施和各项软硬件的提升将会加快数据资料的检索比对,可以使用算法来处理成千上万的论文,以提取每个图像的特征数字“指纹(Fingerprint)”,通过人工智能技术检索重复、篡改的图像。
2 人工智能辅助同行评审检测学术不端行为
2.1 人工智能检测语义的修改
中国知网等采用基于语义分析的自适应多阶指纹分析技术对比相似文字、表格、公式,从而进行定量分析,但对于剽窃论文语义的大幅度修改的检测还存在局限性。目前,中国知网也在努力改进抄袭检测定性分析技术,未来不仅可以检测文字重复,还可以对文章内容结构进行分析,自动识别文章的研究对象、方法、结论等,实现对篇名、关键词等短文本的相似性分析,基于语义分析的全文对比技术,可实现内容创新性检测。
目前,上述人工智能技术还未被广泛应用,检测结果也不能脱离人工单独应用,只能为审稿提供最基础的把关,不能完全替代同行评审。近年来,学术出版商应用人工智能技术来执行自动化同行评审中涉及的任务,包括智能筛选潜在同行评审人,组建同行评审小组,将专家评审意见得分汇总,根据得分自动发出退稿、修改或录用的决定,但同行评审的主要部分还是要由实际同行专家执行,人工智能可以作为同行评审的辅助[11]。
在未来的发展中,利用大数据分析论文的创新性,在同行评审时引入智能分析来筛选论文的潜在同行评审专家,基于人工智能学术搜索给出内容创新性检测的建议及智能软件对学术不端行为的检测,辅助编辑和审稿人决策才是最佳的实践。
2.2 区块链技术的应用
学术不端检测软件暂时无法识别作者是否存在伪造研究数据、研究方法使用错误等行为。而编辑部为了避免数据造假,通常情况下是要求作者提供原始数据和图像[15],对于研究数据是否存在伪造、篡改,主要还是依靠同行专家的评审。可以利用区块链技术创建一个统一、透明的数据库,它能跟踪科学过程的每个阶段[16]。区块链的时间戳、分布式技术(去中心化)、不可篡改、匿名性等特点在对所有者确权的同时也会使伪造数据变得更加困难。正如Smit[17]所说的“区块链在学术交流和科学研究中发挥着至关重要的作用:为所有权者提供时间戳,在区块链点对点网络中存储记录和数据,验证研究者身份,以完全来源元数据、不可改变的方式存档信息(供将来参考和引用)”。未来,如果将区块链技术运用到实验数据记录过程中,能确保研究者完整地记录整个过程,避免选择性地报告阳性结果;再将区块链技术应用到作者投稿、编辑部收稿、同行评审、出版整个过程中,建立可信体系。
目前,区块链技术已经尝试应用到同行评审中。2018年3月,Digital Science公司与荷兰区块链技术公司Katalysis合作启动了支持同行评审过程的区块链项目[18]。Digital Science管理该项目,Katalysis利用其在区块链技术方面的知识来开发测试平台,Springer Nature参与期刊的选择,并围绕出版商和同行评审工作流程提供关键意见,ORCID提供有关个人标识符和身份验证的见解和专业知识[19]。在初始阶段,该计划旨在研究利用区块链技术的分布式注册(Distributed Registry)和智能合约元素(Smart Contract Elements)来实施解决方案。后续阶段,旨在建立一个致力于共同努力解决以同行评审为中心的学术交流挑战的组织联盟。2019年1月,在STM“透明和可移动同行评审的共享基础设施网络研讨会(区块链)”上,他们展示了目前的研究测试成果——采用区块链技术储存同行评审的整个过程及每一步的变化;同时提出了未来的计划,建立同行审稿验证工具、同行审稿人和作者统计分析数据库,以便更好地选择审稿人,也可以使审稿人获得更具针对性的审稿邀请,缩短同行评审的时间。目前已有3家出版商(Springer Nature,Cambridge University Press,Taylor & Francis)加入,计划还将增加2——3家出版商[20]。
3 智能身份识别应对作者、审稿人身份问题
3.1 身份唯一识别代码
目前,没有特别好的检测方式可对作者身份问题(如代写、代投)进行识别,主要还是通过技术手段甄别,人工筛查注册及投稿时间、采编系统登录密码、作者注册信息、登录次数等特征信息[21,22]。对于审稿人身份问题(如虚假同行评审),很多情况也是出版后被同行披露出来的(如PubPeer)。未来,可以结合作者身份、审稿人身份问题,在投稿时要求提供投稿人及每位作者的身份代码,以及参与审稿的同行专家身份代码,如ORCID、ResearchID等。同样,ORCID方面也建议专家在进行同行评审时使用ORCID[23]。目前,CrossRef正在与ORCID和DataCite合作开发一款鉴定研究人员与其隶属机构的标识符,该标识符类似于文章的DOI或研究人员的ORCID[12]。这有利于作者通过该标识符,标注其隶属机构;也有利于学术机构与研究人员撰写的文章相匹配,同时还可以有助于对作者身份的识别。再者,可以借助Publons审查审稿人身份信息。Publons是目前全球最大的同行评审数据认可平台[24],通过Publons,审稿人会对自己的邮箱地址和审稿意见进行确认,防止被第三方操纵,并记录审稿人的评审报告。
3.2 用户画像辅助功能
针对可疑的作者投稿行为、虚假的同行评审人等情况,未来还可以使用“用户画像”的功能,通过大数据识别所有投稿人/审稿人的信息,用不同的细分标签对用户进行分类,如短时间内大量投稿、所有投稿之间学科跨度太大,审稿意见过于简单且评价过好、审稿人与作者隶属同一机构等。将这些内容整合在一起,从而形成疑似学术不端行为的作者/审稿人的“用户画像”。这样编辑部在收到他的来稿或者审稿意见的时候,“用户画像”就能辅助编辑进行判断。
3.3 新型同行评审模式
为避免同行评审偏见,以及虚假同行评审问题,还可采用开放性同行评审、先出版后同行评审、第三方同行评议平台如Peerage of Science 和Rubriq等[25,26],使同行评审过程更加透明、公正。在2017年的国际同行评审周(Peer Review Week),也有人提出同行评审意见应有DOI[27]。这一举措除了可以肯定审稿人的智慧成果,也可以促进同行评审更加公正。为避免虚假同行评审,作者在推荐审稿专家时可以借鉴ScienceOpen的要求:“同行专家与文中任何作者至少5年内没有在同一机构共同工作,也没有作为共同作者发表过文章”[24]。也可以开发审稿人识别和认证系统。其中由Elsevier开发的Find Reviewers工具,会自动筛选学术背景与论文作者研究领域吻合的独立审稿人,即这个人与作者单位不同,关系不近,且在一定时间内未与作者合作研究[28]。 2019年Nature发表的一篇文章称,中国国家自然科学基金委员会(National Natural Science Foundation of China,NSFC)正在建立一个复杂的系统,利用自然语言处理技术搜集在线科学文献数据库和科学家的个人网页,以收集有关潜在审稿人的出版物或研究项目的详细信息,希望能够减少审稿人的评审偏见[29]。
3.4 预印本服务
目前对于未发表论文一稿多投的问题,主要依靠同一投审稿平台数据共享进行检测。而预印本(Preprint)是在论文未经过同行评审于正式出版前发布的,这个系统最早应用于物理学和数学领域,并且已开始应用于医学领域。最早的arXiv.org起源于1991年,之后生命科学领域的bioRxiv.org于2013年诞生,医学预印本平台medRxiv也于2019年上线,预印本的最大优势就是它使作者能够立即与科学界分享他们的最新研究成果[30]。我国也于2016年6月13日搭建了首个科技论文预印本平台——中国科学院科技论文预发布平台(http://chinaxiv.org/home.htm)。预印本的出现和未来的普及可以提升学术交流的时效性[31],也可以在一定程度上避免作者一稿多投。
4 结语
作为科研成果的展示平台,科技期刊在学术不端行为的预防和控制方面有着重要的责任。本研究的很多观点是基于学术研究,具体的实施过程还需要科技研发公司与出版行业共同努力,如Taylor & Francis、Elsevier和Springer Nature等大型出版商都在尝试与软件公司合作,开发适用于出版行业的人工智能工具[32]。随着人工智能时代的到来,科技期刊转型升级将迎来新的发展机遇。将人工智能技术应用于学术搜索,创建一个基于大数据、跨平台、多学科、综合性、共享的智能检索数据库将成为一种趋势,它将更智能化地应对文字、观点、图像剽窃等学术不端问题;引入智能分析,并在大数据平台上进行内容创新性检测来辅助同行评审;在区块链技术的支持下确保实验数据的真实性、同行评审的透明性。采用身份唯一识别代码、用户画像功能鉴别作者、审稿人身份;而新型同行评审模式将进一步避免虚假同行评审,减少同行评审偏见。与此同时,也应注意到其对科技期刊带来的影响,不能过于依赖智能程序对编辑和审稿人等人类智慧的替代,只有两者协调、互补融合应用,才能实现科技期刊的智能革新[2]。总而言之,在智能时代,要善于利用智能工具、大数据自动挖掘技术、人工智能分析技术,对存在的和可能发生的学术不端问题采取相应的应对策略。
参考文献
[1]中华人民共和国国务院.新一代人工智能发展规划[EB/OL]. ( 2017- 07- 08)[2019-10-30]. .
[2]刘平, 杨志辉 . 人工智能构建科技期刊智慧出版模式[J]. 中国科技期刊研究, 2019,30(5):462-468.
[3]刘韬, 韦轶 . 基于OneNote软件和手写笔的无纸化稿件校对手段[J]. 编辑学报, 2018,30(4):404-405.
[4]常唯, 张莹, 白雨虹 . 期刊编辑部在做好出版伦理防控中的责任——Light: Science & Applications的实践探索[J]. 中国科技期刊研究, 2019,30(1):9-13.
[5]STM. Tech trends outlook 2021[EB/OL]. (2017-04-27)[2019-10-30]. .
[6]STM. Tech trends outlook 2022[EB/OL]. (2018-04-26)[2019-10-30]. .
[7]STM. Tech trends outlook 2023[EB/OL]. (2019-04-22)[2019-10-30]. .
[8]刘鑫, 谭彩霞 . 人工智能在学术不端行为风险控制中的应用[J]. 金陵科技学院学报(社会科学版), 2018,32(3):80-84.
[9]段为杰, 于洋, 吴立航 , 等. CrossCheck检测平台及信息核实在学术不端防治中的作用[J]. 编辑学报, 2018,30(1):64-66.
[10]谢晓红, 肖骏, 王淑华 . 利用ScholarOne Manuscript投审稿平台发挥同行评议“守门员”的作用[J]. 编辑学报, 2018,30(4):396-398.
[11]刘银娣 . 学术出版领域的人工智能应用: 现状、挑战与应对[J]. 科技与出版, 2019(1):64-68.
[12]Chang J H . Crossref LIVE17 annual meeting in Singapore[J]. Science Editing, 2018,5(1):82-84.
[13]Butler D . Researchers have finally created a tool to spot duplicated images across thousands of papers[J]. Nature, 2018,555(7694):18.
[14]叶青, 林汉枫, 张月红 . 图片中学术不端的类型与防范措施[J]. 编辑学报, 2019,31(1):45-50.
[15]徐婷婷, 曹雅坤, 曾礼娜 , 等. 关于防范科技论文中“隐性”学术不端行为的建议[J]. 编辑学报, 2018,30(1):58-60.
[16]Matthews D . Blockchain ‘could help combat mistrust in scientific process’[EB/OL].( 2018 -01-19)[2019-08-18]. .
[17]Smit E . Blockchain-hype or amechanger, how suitable is blockchain technology in STM publishing[EB/OL].( 2017 -10-01)[2019-10-30]. .
[18]徐丽芳, 王钰 . 科技内容产业的鼎新革故:2018海外科技期刊出版动态研究[J]. 科技与出版,2019(2):13-22.
[19]Digital Science. Digital Science and Katalysis lead initiative to explore blockchain technologies for peer review[EB/OL].(2018-03-07)[2019-10-10]. .
[20]Webinar on a shared infrastructure for transparent and transportable peer review (Blockchain)[EB/OL].(2019-01-21)[2019-10-10]. .
[21]王雁, 苟莉, 刘丹 , 等. 代写代投来稿的甄别及防范措施[J]. 编辑学报, 2018,30(2):171-173.
[22]余菁, 邬加佳, 徐杰 . 由采编系统登录密码辨别代写代投学术不端行为[J]. 科技与出版, 2018(9):157-160.
[23]季媛媛, 刘冰 . 国际期刊科学出版理念的更迭——第8届国际同行评议和科学出版大会综述[J]. 编辑学报, 2019,31(1):113-116.
[24]Memon A R, Waqas A . Publons joins Clarivate Analytics:What would be the future?[J]. Science Editing, 2017,4(2):95-97.
[26]曾玲, 王维朗 . 基于国际借鉴的新型同行评议模式分析[J]. 科技期刊发展与导向, 2018(11):51-56.
[27]Hendricks G, Lin J, . Making peer reviews citable,discoverable,and creditable[EB/OL]. 2017 -09-11)[2019-10-30]. .
[28]彭芳, 金建华, 董燕萍 . 同行评议造假原因分析及防范措施[J]. 编辑学报, 2018,30(3):240-243.
[29]Cyranoski D . Artificial intelligence is selecting grant reviewers in China[J]. Nature, 2019,569(7756):316-317.
[30]Choi Y J . 2018 Asian-Pacific conference of the international society of managing and technical editors[J]. Science Editing, 2018,5(2):159-161.
[31]丁筠 . 预印本网站的兴起给学术期刊带来的启示[J]. 编辑学报, 2018,30(2):145-147.
[32]Kim K . Artificial intelligence and publishing[J]. Science Editing, 2019,6(2):89-90.