【作 者】李娜娜、李爽、李杨:天津市第一中心医院《实用器官移植电子杂志》编辑部;李银平:天津市天津医院《中华危重病急救医学》杂志社
【摘 要】人工智能是近年来迅速发展的新兴产业,已经融入人们的生活和工作,在有效改善工作环境、提高工作效率的同时也对各行各业的传统工作模式提出了挑战。随着人工智能、“互联网+”、AR/VR等新兴技术的崛起,信息传播更加智能、精准,智媒时代已经开启,人工智能与文化产业的交集逐渐扩大,为人工智能在学术不端行为检测中的应用提供了可能,为此就人工智能如何改善学术不端检测的策略进行探讨。
【关键词】学术诚信;人工智能;学术规范;检测系统
近年来,学术不端的行为屡见报道,2015年英国出版商现代生物出版集团撤稿生物医学论文43篇。2017年,施普林格出版集团撤销《肿瘤生物学》期刊论文107篇[1],此次撤稿事件在学术界引起轩然大波,不仅刷新了全球学术期刊一次性撤稿论文数量的纪录,更是首次将科研诚信问题推至风口浪尖。尤其在我国,科研诚信得到了前所未有的重视,科研诚信危机浮出水面。加强科研诚信建设,提升学术道德水平,已成为我国学术界一项刻不容缓的重要任务。
当前,随着知识大爆炸时代的到来,人工智能(Artificial Intelligence,AI)、“互联网+”、数据挖掘、深度学习正在融入我们的生活,同时对传统行业提出了挑战。国务院于2017年7月颁布了《新一代人工智能发展规划》的通知,明确指出要全面贯彻、深入学习习近平总书记系列重要讲话精神和治国理政新理念、新思想、新战略,将提升新一代AI科技创新能力作为未来发展的重要战略方针,构建AI科技与社会和谐发展的创新体系,争取到2030年,我国的AI理论、技术与应用总体可以位于世界领先地位[2]。AI是研究、开发用于模拟人的思维过程和行为的学科,该领域的研究包括机器人、音频识别、语言输入及处理等。随着以数据挖掘、深度学习、互联网为基础的AI时代的到来,人们逐步感受到了其带来的冲击和影响。作为发表重要科技成果、知识与信息传播及引领舆论导向的重要行业[3],出版业一直是与人们生活密切相关并紧跟科技潮流的行业,尤其是期刊领域,在人工智能不断崛起的背景下,各种智能科技已开始逐步被应用,未来将进入智能出版时代[4]。因此,利用大数据挖掘、机器深度学习、VR/AR、人机交互等工具进行学术不端检测,逐渐成为新的趋势。
目前,学术不端行为检测系统是各出版社甄别学术不端的主要工具。与国内相比,国外的检测系统起步较早,反抄袭技术相对成熟。Turnitin检测软件创建于1998年,是目前全球最权威、使用最多的英文检测软件[5],支持中文、意大利文、法文、英文等多种语言。在我国,中国知网在2008年开发的AMLC系统是目前国内期刊出版单位使用最多的检测系统,其优点是检测速度快、准确率高、抗干扰性强,支持的文件格式多样。随后万方数据库和维普资讯也相继推出WFSD系统及WPCS系统,相比AMLC系统,这2个系统都支持个人使用。WFSD的优势为算法精准科学,报告详实全面;WPCS的优势为检测资源丰富,有创新性检测指标。北京智齿数汇科技有限公司针对大部分高校毕业生推出了PaperPass检测系统,其比对指纹数据库由9000多万种学术期刊和学位论文、超过10亿的互联网网页数据库组成[6]。
以上4种是目前我国使用比较普遍的检测系统,但仍然存在诸多问题:①各个系统存在检测差异;②数据库中的论文存在滞后性或缺失;③检测算法不够智能;④不能区分合理的自引、他引或抄袭;⑤不能检测论文中的图片、图表抄袭。
这些问题已存在许久,但是随着AI、“互联网+”、AR/VR等新兴技术的崛起,信息传播更加智能、精准,智媒时代已经开启[7],AI与文化产业的交集逐渐扩大,为AI在学术不端行为检测中的应用提供了可能,其中的跨语言检测技术和语义识别技术可帮助检测软件有效解决“思想抄袭”的问题[6]。
1 建立完善的数据库系统
想在海量的论文中分辨出相似、相近文章以及判断文章的价值,需要一个庞大的数据库系统。因此,未来将利用AI、机器学习、深度学习不断扩大和完善数据库。机器学习指用算法解析数据,通过学习对周围发生的事做出判断、预测;深度学习是实现机器学习的一种技术,利用人工神经网络(Artificial Neural Network,ANN)实现,它的构想源自于大脑的神经元,拥有独立的层、连接以及数据传播方向。每一个神经元会对输入的信息进行权衡,确定权重,搞清它与所执行任务的关系,比如有多正确或多么不正确,最终的结果由所有权重来决定[8]。
数据库系统与AI系统是相辅相成的,AI系统使用大量标准的算法去执行搜索与推理、高效检索访问以及管理海量数据库。数据库技术中引入AI,实现了两者的完美结合:数据库智能化和智能化数据库。数据库智能化,就是将数据库系统作为AI系统,利用AI技术实现数据库系统的智能表达、推理和查询功能;智能化数据库表现为数据库定时自我更新的功能,使其具备一定的翻译、推理功能,提高系统的智能化程度[9]。目前,国内的AMLC、WFSD、WPCS、PaperPass等系统均不能达到智能化效果,同时还存在数据库不稳定、更新不及时、缺乏外文以及小语种文献、覆盖范围不全面、缺乏网络或会议发表文章等问题,不能将同一作者、导师、单位进行归类,在文献检测的时候,通常不能排除同一作者的文章。另外,各系统缺乏数据共享平台,不同系统的检测结果无法进行共享对比。出版巨头爱思唯尔诚信部门主管也表示,出版商需要创建一个共享的数据库,以便进行相关检索,查实论文图片重复使用的情况。而AI不仅能建立完善的数据库系统,甚至构建数据共享平台,为学术不端检测打造扎实的基础。
2 开发高效的图片相似性检测技术
在文章相似性检测中,图片的相似性检测往往是最困难的,因为目前没有任何一个软件或算法能够准确分析2张图片的相似性,尤其是在作者刻意进行修改的前提下。在中国,论文文字查重体系一直到2005年前后才建立。后来,人们又不断优化这个系统,从能识别“复制粘贴型”抄袭,到能识别改变用词和句法的抄袭,但图片重复一直是论文查重的死角[10]。在过去,图片审核的工作往往需要人力完成。Nature杂志会对收到的稿件随机抽样进行检查,并要求作者提供未编辑的图像作参考;《细胞生物学杂志》和《欧洲分子生物学组织杂志》也是对图片进行手工查重。手工查重不仅耗时、耗力,更重要的是效率低,甚至检测不出,以至于多数刊物都没有采用这项流程。
2018年亿欧智库发布的《2017人工智能+内容生产研究报告》中提到的“图像相似性检测”或许将带来新的希望。近2年,在AI芯片和服务器集群逐步完善,算力越发强大的基础上,无监督学习、深度强化学习、迁移学习、生成对抗网络等算法的研究继续深入,在文本处理、音频处理和图像处理方面持续取得突破。将这一技术用于文章相似性检测的想法,很快就实现了。同年,美国纽约雪城大学的研究员丹尼尔·阿库纳等研发出一套算法,可以利用AI识别学术论文中的图像造假,对论文图片进行查重。他们检测了76万篇论文,并从中提出有效图片263万张。其中,约9%的图像存在高度重复,该团队又在其中选取了约4000张可疑图片进行人工核查。经测算,在所有论文中,约1.5%存在学术不端的嫌疑,0.6%确认存在图像方面的论文造假。
3 完善智能语义检测技术
现有的检测系统只能粗略检测大段的文字复制,无法对篡改、伪造进行检测,并不能根据语义、语境、同义词、近义词等进行检测。中文博大精深,如果作者刻意对语言文字进行修饰、篡改,现有检测系统是不能及时发现的。自然语言处理(Natural Language Processing,NLP)是利用计算机对人类自然语言信息进行处理和加工,最终实现人机对话的理论和方法[11]。目前,NLP与ANN技术被应用于学术不端检测,大幅提高了编辑的效率[12]。无论字还是词组,在形式上都可从发散或收敛、分或合,来产生或排除相应的形式歧义,形成涉及形式语义的判定。另外,由于年代、方言和人际的种种复杂因素,其交叉重叠的内容与形式之间增加了无数歧义,很多文章难以判断,而AI可以很好地解决这一难题。
此外,另一个检测难点为外文翻译,某些作者提交的文章是直接翻译外文文献后拼凑而成,目前各大检测系统尚无法识别这种类型的文章。但是随着AI的发展,AI翻译也逐渐变得简单、便捷。AI翻译是指通过计算机等芯片软件,基于规则的机器翻译,根据统计规律来进行翻译,这是通过词典和规则库来构成知识源,以一定的规则为基础来进行的翻译。随着AI的发展,基于ANN的机器翻译诞生,通过深度神经网络,自动地在数据库中学习翻译知识,通过理解源句子,经过复杂的推导运算和学习计算,生成流畅且符合规范的译文。这种基于ANN的机器翻译实现了学习功能,从各个方面使人工智能翻译取得质的飞跃[13]。而文献检测系统可以利用这一技术,检测中文文章与外文文献的相似性,进一步杜绝不劳而获的现象。
总之,学术期刊作为把控学术论文真实性的重要环节之一,深刻影响了国内学术环境的学术诚信。科研人员及科研单位作为源头,更应充分了解国内学术诚信现状和学术态度的影响因素,加强学术诚信建设,以提高论文的质量和可靠性,提高我国学术诚信和国际影响力。在当今人工智能迅速发展的时代,“互联网+”、AI、数据挖掘等已经为我们的生活带来了许多便利,积极拥抱人工智能带来的变革,探索利用人工智能促进学术诚信建设的新方法,将会为学术期刊发展带来新的动力。
参考文献
[1]石丹妮,徐阳,江胜强.从“集中撤稿事件”谈我国科研诚信体系建设[J].江苏卫生事业管理,2018,29(10):1202-1204.
[2]国防.国务院印发《新一代人工智能发展规划》[J].军民两用技术与产品,2017(15):4.
[3]彭现.人工智能技术对出版内容的影响[J].传播力研究,2018(15):150,153.
[4]匡文波.人工智能时代出版业的变革之道[J].出版广角,2018(1):6-8.
[5]旻张浩,高国龙,钱俊龙.国内外学术不端文献检测系统平台的比较研究[J].中国科技期刊研究,2011(4):514-521.
[6]刘鑫,谭彩霞.人工智能在学术不端行为风险控制中的应用[J].金陵科技学院学报:社会科学版,2018,32(3):80-84.
[7]林竹鸣.未来之路:2018传媒业内容生产趋势[J].中国记者,2018(1):11-13.
[8]姜宇杰.人工神经网络概述[J].中国高新区,2019(2):193,296.
[9]武赞.浅析人工智能与数据库技术结合的应用与发展[J].科技信息:学术版,2007(27):194.
[10]丛杭青,顾萍.学术不端行为的种类与特征[J].长沙理工大学学报:社会科学版,2018(1):31-35.
[11]黄华新,洪峥怡.探索语言逻辑与信息处理结合的新路径——《自然语言信息处理的逻辑语义学研究》评介[J].重庆理工大学学报:社会科学版,2019,33(4):13-16.
[12]周丽,曾蕴林,张耀元,等.人工智能时代科技期刊编辑模式的改变[J].天津科技,2019,46(3):89-90.
[13]余玉秀.AI+翻译:人工智能与语言行为人机耦合应用研究[J].传媒,2019(8):94-96.