期刊防范学术不端的深度反思——兼谈对AMLC系统的理性认知_中国（武汉）期刊交易博览会（刊博会）

期刊防范学术不端的深度反思——兼谈对AMLC系统的理性认知
《编辑之友》
　　【作　者】王文福黑龙江工程学院学术理论研究部黑龙江哈尔滨 150050

　　【摘　要】对来稿进行学术不端检测是编辑部初审稿件的重要工作，检测过程往往存在过分依赖软件，对结果“一刀切”的倾向。文章通过深入分析，揭示了学术不端文献检测系统AMCL的弊端，并从法律层面界定了合理引用与抄袭的界限；指出对检测结果要理性分析，依靠但不依赖，必要时通过同行专家作出正确判断；对系统的不足提出了改进建议；对学术不端的防范机制进行了深度反思，提出了综合治理的建议。

　　【关键词】学术不端、文字复制比、期刊、AMLC、科研评价机制、防范体系

　　AMLC是由清华大学中国学术期刊(光盘版)电子杂志社和同方知网研制的科技期刊学术不端文献检测系统。其应用自适应多阶指纹分析技术(AMLFP)，建立相似性对比算法。AMLC对抄袭结果的界定分为：剽窃观点、白我剽窃、剽窃文字表述、一稿多投、过度引用、整体剽窃、重复发表等。系统共设定了四种不同颜色表示检测结果中不同的文字重合情况，如图1。

图1 AMLC检测结果及显示

　　AMLC是编辑部使用的主要的学术不端检测工具，对AMLC系统的使用，目前存在过分依赖并对检测结果“一刀切”的倾向，不问青红皂白，超“限”即退。限度的设置上无统一标准，严者自严，松者自宽，缺乏严格及令人信服的理论依据。AMLC在遏制低级学术不端行为中发挥了重要作用，但在应对高级别的学术不端行为中已显力不从心，自身的弊端和局限性也充分显现。

　　一、AMLC系统的不足

　　1.自身功能不完善

　　文本格式影响检测结果。系统虽支持多种格式上传，但相同内容的检验结果却有差异，此外，文章排版格式不同影响检测。不能识别图片和公式以及不能完整识别表格，而科技论文中图形、表格、公式是对科学内涵的核心表述，不能准确检测，影响了系统科学性。未实现跨语言匹配，对外文文献检测存在技术障碍，作者抄袭外文现象无法检测。

　　2.检测结果的模糊性

　　仅对文字符号性识别，不能做到语义分析，检测表面化，智能程度不高，未能深及思想内涵。仅给出涉嫌抄袭提示，检测结果也不具法律效应。对合理引用和抄袭都一律“标红”并归结为文字复制率，其是否抄袭，系统本身无法判断。

　　3.限制了正常引用的权限

　　学术不端文献检测系统限制了正常引用的权限，也促进了学术不端行为的升级。它遏制了明目张胆的抄袭、剽窃，给编辑审稿工作带来极大的便利，但对文化发展产生了负面影响。如，文中领导人讲话、宪法、中央文件等都必须原文引用，不能换说法，依据《著作权法》作者有引用的权利，系统却不能保障，这些都会被系统检测为文字复制比，致使人为防止“超限”，产生了许多“滥引”，导致以讹传讹，束缚了思想的准确传播。此外，这些检测也促进了学术不端行为的“升级”，使学术不端侦测难度提高，成本加大。这种围绕学术不端行为矛与盾的升级，造成“学术”研究的资源浪费，忽视了科研本质、思想上的创新，而把更多的精力放在攻防学术不端检测上。而检侧系统无法终结学术不端，治标不治本，所能起到的作用仅是逼迫抄袭行为的再升级。

　　二、合理引用与抄袭的法律界限

　　随着学术不端检测软件的应用，学术不端行为也在不断自我升级，抄袭更隐蔽，为躲避检测甚至融入了个人创作成分，使抄袭更难以认定，这些模糊的界限无疑需要法律界定。

　　《著作权法》第22条对适当引用作了规定：引用目的仅限于介绍、评论某一作品或说明某一问题；引用部分不能构成引用人作品的主体或核心部分；不损害原作品著作权人利益，并正确标注。“主体部分”和“核心部分”既有“量”的限制也有“质”的要求。法律仅给出了抽象概念，具体情况还要看各作品实际情况，遵循学术创作规律，采取学术评定办法。因此，鉴别文章内容是否存在“抄袭”，需要编辑甚至审稿专家依据引用目的和作用进行认真分析与判断。

　　按照重复文字的来源，复制文字可分单源复制和多源复制。单源复制即复制文字只来源于一篇文献，单篇文献文字重合度高是判定整体抄袭的最敏感指标之一；多源复制即重合文字来源于两篇以上文献，若文字复制比高，且集中于一篇则有抄袭嫌疑，分散在多篇，则有拼凑可能。在抄袭鉴别上，一般应掌握以下界限，著作权法保护的是独创作品，而不要求是首创作品。作品虽然类似但如果系作者完全独立创作的，不能认为是剽窃。另外，学界存在“思想/表达二分法”原则，即著作权不保护思想，仅保护思想的表达。目前科学研究都是建立在前人研究成果基础上，根据著名的“巴莱多定律”，在任何特定事物中，重要因子只占少数，不重要因子占多数，但少数因子却起决定性作用。每篇论文仅有一小部分内容是作者创新，而大部分内容可能是前人成果的总结、评述、介绍等非作者原创内容，一般用作论据。若将这部分内容作为原创保护起来，限制后来者使用，显然会阻碍科学文化的传播。即便老老实实地引用，同样的事例很多文章都在反复叙述，引用时根本无法准确判断哪个是系统“认定”的原创，最后论文还是被判定为抄袭。名言警句、古诗词、经典词句，使用时更无法更改，被检测结果“标红”。系统认定，只要在数据库中有人用过，别人再用，即便标明原始出处，比对结果仍认为复制抄袭。而著作权法规定，著作权保护期满的作品，或著作权法不予保护的作品等，任何人可以自由利用。著作权法是鼓励原创、促进文化繁荣的，各领域的公共知识和信息构成了今天科学和文化的基础。如果将这些科学和文化的基础作为私权保护，禁止他人传播，并冠以抄袭之名，显然和著作权法理相悖。但更多的作者为了能够顺利发表论文被迫屈就，把业内公认的简洁淮确的通用表述换成晦涩别扭的语句，无疑是学术不端防范体系的悲哀。

　　抄袭是将别人的文章内容不经修改就直接加入自己文章，作为自己成果，标注与否不影响问题性质；剽窃是将作者原文或学术观点，以隐蔽的手段，经过“偷天换日”移入自己的作品。抄袭是在明处，剿窃是在暗处，是偷偷窃取。如何判定“适当引用”，主要依据引用的目的是否为“合理使用”。若为合理使用，即使重复率稍高，也不属于抄袭和侵权。抄袭和引用的区别不在多少，也不在是否正确标注，而是如何使用。旁征博引、引经据典仅能是例证，仅是为了说明问题，但结论还需要自己另行得出。即当作“论据使用”，就是“引用”之“用”，这是引用的核心、关键和实质，即使不规范也不影响引用的实质。而把它作为自己的观点和主张，哪怕有注释，也是抄袭、剽窃。

　　三、AMLC检测结果的理性辨识

　　1.参考文献标注与检测结果

　　现在的写作者已较过去注重参考文献著录，一是编辑部审稿要求严，二是作者重视了科学工作的传承。而对于如何标注还存在模糊认识，认为只要标注来源就可以大胆引用。实际上参考文献无论正确标注多少，甚至用引号明示原文，检测时仍会计入文字复制比，系统检测时判断为：“剽窃文字表述”。大量剽窃文字表述是不允许的，著作权理论里有一个原则：不保护创意，只保护创意的表达。有学者认为，根据他人的思想观点，模仿别人的风格方法进行创作，均不属于到窃。语言是原始创作的一部分，对描述性语言引用，也为抄袭。简单地说就是在文中使用了别人的文字或观点而没有说明出处，让人误以为是你的观点和表述，即为抄袭或剽窃。作者不清楚引用界限，无意识超限是学术失范行为；故意到窃是学术失德，是学术不端行为。

　　2.文字复制比部位和作用决定问题性质

　　科研论文的写作，多是在现有的理论或方法指导下进行理论或实践创新，对理论提出创新发展构想或对实践方案改进或在数据处理上进行完善，皆可形成学术观点，撰写文章。正常情况下，论文的引文多在“引言”和“提出问题”上，即使未正确标注，也不影响文章学术价值。“分析问题、解决问题”展现了作者的科研高度和深度，是文章价值所在，结语、结论、建议体现了文章的意义所在。若这部分文字复制比较高，即使该文章的整体复制比很低也缺乏学术价值。论文注重观点的原创性，剽窃观点比剽窃文字问题严重。

　　3.文字复制比和抄袭无必然联系

　　文字复制比只是描述检测文献中文字复制数在全文中所占比例，并非对文献的硬性判定。但文字复制比高，抄袭嫌疑大，创新可能就少。

　　文字复制比包含了三部分内容：“检测结果”“去除本人”和“去除引用”。正常情况下，三者值递减并存一定的内在规律，其中“检测结果”包含了引文在内的所有重合字数与总字数之间的比率，若该值高，可能存在学术不端问题；若三值相等，表明文章在参考文献标注上存在问题；若后二者值偏低，则可能缺乏创新性。但三值都不高仅能说明比对数据库中没有与之匹配的文章，这有多种可能；（1）独创性好的文章；（2）无直接抄袭，也无创新，平淡无奇稿件；（3）抄袭源隐秘或抄袭现象被刻意掩盖；（4）可能抄袭公式或图表。

　　作者在引用基本概念、原理方法，或他人的试验步骤、研究成果作佐证时，不能照抄他人论文表述，需要自己组织语言进行阐述，但一些基本概念、原理、实验材料和方法等的描述在多人的转述中已被人翻来覆去写了N遍了，类似文字排列组合已被穷尽，你的思路和写法早被人“注册”了。只能采用已成形的固定表达模式，即格式化表述式，若刻意规避，反而会扭曲原意或表述失真，作者将复述标注于参考文献应视为合理引用而非抄袭。下面情况也需谨慎对待：（1）综述类文章重复率高。综述属三次文献，是对大量原始研究论文中的数据、资料和主要观点进行归纳梳理、分析提炼成文。文章重复率高有其必然性，只要是在合理使用许可范围内，皆应放行。综述有作者自己的综合和归纳。“综”即综合性，综合分析和归纳整理前人成果，综合的是别人的东西。“述”就是总结出作者对所述问题的观点，是作者独创或总结的东西。但综述文章引用的应是大量参考文献的内容，而不是一篇或几篇文章的内容。（2）作者与已上网硕博士论文高度重复问题。笔者比较赞同金铁成先生的观点：《中国优秀硕士学位论文全文数据库》《中国博士学位论文全文数据库》建库时已申请CN号和ISSN号，属于正式的电子学术期刊，应算网络发表，引用观点和数据可以，但重复发表是不妥的。若作者欲在期刊上发表，需在学位论文上网前，并在期刊正式刊出后再授权CNKI学位论文数据库收录，这符合著作权法中对汇编作品的相关规定，也符合学位论文数据库收录稿件的第二条投稿须知。这些成果已在申请学位时使用一次，若日后晋升职称再次发表，显然是重复使用成果。

　　四、对AMLC系统的改进建议

　　针对目前使用AMLC系统遇到的问题，对AMLC系统提出以下改进建议：

　　1.增加公式、图形的检测识别，完善表格识别技术。2.建议由中国知网牵头整合网络文献数据库，或与万方、维普等期刊网络出版商实现数据库资源共享，对我国法律条文、伟人原著、行业法规、条例、规范、标准等资源收入数据库，解决合理应用问题；上网期刊要及时，无需等纸质期刊寄到再扫描上网，可使用付印时印刷文本，转换后上网，这样缩短了出版周期。3.建立统一问题文献数据库。目前系统中用户可自建学术不端文献问题库和对比库，但仅是一刊的积累，尚无法和其他编辑部交流和共享。将此数据在后台进行整合、实现数据共享，形成统一问题数据库，让学术不端者无隙可乘。4.建立作者投稿数据库。一旦作者投稿编辑部即被该编辑部“注册”，只要未退稿，未在数据库中清除，在其他编辑部就“注册”不了，就像申请账号一样，(一旦系统中存在某账号，其他用户就无法再申请)，但该数据库中的内容不对外公开(文章未正式发表)，仅作对比用。这可有效杜绝作者一稿多投，避免编辑部人力、物力和财力资源的浪费。5.建议系统能自动推荐对口审稿人。目前每篇学术论文都标有中图分类号、关键词等学科专业信息，还有作者工作单位、作者简介，包括职称、学历、研究方向等，一些期刊还标注了作者“ORCID"，建议将这些数据和投稿论文比对信息链接，这样就可使编辑在更大的范围内寻找对口审稿专家。6.提高检测技术，采用更智能的高模糊度的比对算法和比对策略，防止语义抄袭。系统虽然采用语义级别检测技术，会结合上下文的内容，对达到一定的语义级别的内容进行判定。但目前智能化水平还不高，仅是语义的低层次对比，无法做到语义判断、含义识别上的高级智能化，容易通过简单的修改蒙混过关。7.制订统一规范的行业执行标准，便于各编辑按照相同的标准处理问题，做到有规可依，有章可循，规避争议。目前编辑部缺乏统一的可操作标准，各行其是，使作者无所适从。如上传检测论文的内容应该包括哪些部分，也无规定。8.AMLC增加常识性概念、约定俗成用法的筛除过滤功能。对已规范或公众认知的事件、原理、概念和试验方法等描述的重复可自动去除。9.改进系统的自身性能。目前系统的“查准率”“查全率”仅不小于80%，但这仅是基于比对库中已存文献的结果，由于对比库收录不全以及期刊最新一期上网的时间差问题，这个值还要打折扣，即便如此也意味着大约有20%的差错率，只能说这个系统最高仅能达到良好程度，还有很大的提升空间。此外，不同文本格式检侧结果差异较大，这对结果选择有影响。10.建议学术不端检测系统能和在线审稿系统绑定，直接向审稿专家提供检测结果和相似文献，方便专家作进一步鉴别。

　　五、关于学术不端防范的深度反思

　　1.学术不端的本质是科研机构领导者的好大喜功、急功近利

　　学术不端屡禁不止，究其原因还是现行科研考评机制出现了问题，造成了学术研究的泛化，致使学术“全民跃进”，无论是研究人员，还是一般干部，抑或幼儿教师、乡镇技术员，动辄将论文作为考评的必要条件。极端性的量化考评指标成为学术不端行为的直接诱因。写不出就买，买不起就拼凑、抄，数不够就重复发表，全无质量概念。售卖论文广告充斥各网站，有人做过统计，中国买卖论文仅2007年产业规模就超过5亿。某些刊物给钱就登，严重损毁中国的国际学术形象。产生学术不端的原因，有道德问题，也有机制问题。

　　当前买卖论文明目张胆，抄袭暗流涌动，有某媒体报道：16个单位25人将一篇医学论文轮番抄袭了6次。更可怕的是抄袭已渗透进高校校园，腐蚀着即将成为科研生力军的研究生，不抄就写不了论文了，以致蔓延成一种普遍的社会现象，成为一种“集体无意识”。若不禁止，学术不端行为就成为“滚滚长江东逝水”“滔滔不绝”。反学术不端软件的介入，反催生了学术不端保护业，高峰时淘宝网曾驻留超万家“学术不端检测”网店。据刊载每到毕业季，反抄袭软件沦为抄袭者的保护神，“抄袭保护者：月入百万。

　　2.编辑是防范学术不端的重要前沿防线

　　学术期刊应担负起相应的社会责任，抵制和防范学术不端编辑责无旁贷。浙江大学学报(人文社科版)总编徐枫指出：“面对学术失范现象，学术期刊不能无所作为。”编辑要有责任心、使命感，以捍卫学术尊严和净化学术氛围为己任，应做到逐字逐句查核，严格把好文字关与语言关，不应以“文责自负”或事后惩戒而放弃事前的预防警示责任，淡化编辑在文章出版过程中的主体责任和主导作用。编辑要理性认知AMLC系统性能，正确认清检测系统的工具性质，依靠而不依赖AMLC。编辑也不能将对论文的价值判断，全部都推给审稿专家，特别是对论文是否存在隐藏式学术不端行为的判断，编辑应承担起前期的责任。编辑要发挥主观能动性，提高防范意识，主动了解学科的前沿，不断提高自身业务能力，精通所属专业领域，提高外文修养，从而提高甄别学术不端的能力。

　　3.治理学术不端要有刮骨疗毒、壮士断腕的力度

　　学术不端严格讲就是学术腐败，洽理学术腐败要像反腐一样，具有刮骨疗毒、壮士断腕的力度和勇气。学术腐败不除，就不会焕发出学术的勃勃生机。治理学术腐败也要分几步走。要先使其“不敢抄”“不能抄”，然后再提高觉悟“不想抄”。学术不端一经呈现，将成为永远抹不去的铁证，将永远暴露在阳光下。学术不端泛滥是集体护短，是“不敢抄”的惩戒制度不到位，仅靠揭露几个学阀，不足以震慑民众，靠编辑部和抄袭者进行近似“躲猫猫”的游戏，杜绝抄袭就难以奏效。“你有一定之规，我有千条妙计”，只要利益驱动，获利成本低，学术不端者就会前赴后继，就像计算机病毒一样猖撅、泛滥，不断翻新升级，屡杀难绝。而不改革既有科研评价模式，不加大对学术不端的惩戒力度，系统检测的结果就只能是促使作者玩文字游戏，规避检测，学术不端的防范将永远流于表面形式。

　　4.建立预防为主，惩前毖后的社会监督体系

　　《科学》总编辑唐纳德·肯尼迪认为，“科学期刊不是为侦察造假而设计的”。学术抄袭的主体责任虽然是抄袭者，但连带责任包括对学术抄袭失察的人，比如研究生的导师、单位的领导、杂志社和出版社的编辑、学术成果的评审人员、传播平台、管理机构，各种评审机构等。编辑虽在期刊论文学术不端问题上负有一定的把关责任，但能起的作用十分有限，且是处于整个关系链条的末端和被动地位。从源头上彻底遏制论文抄袭现象，需要全社会的配合和积极响应。（1）改革现有的学术评价机制。功利化的学术倾向必然会培养出急功近利的学术心理。必须坚决遏制学术评价中重量不重质、过分追求数量指标的举措，斩断形成学术不端的物质利益链条，铲除其滋生的土壤。（2）建立严厉的惩戒机制。让抄袭者付出沉重的代价，使其“不敢抄”。制订相关法律，对学术失范采取“零容忍”举措，将抄袭行为“入刑”，在刑法中增设“剽窃罪”罪名，这是最后的釜底抽薪之策。起到有效的震慑和吓阻作用，定会将学者的精力引导到创新实践上。（3）建立诚信为本的社会环境，建立个人诚信档案，“乱世重用典，盛世靠文化”，预防为主、教育为先、警钟长鸣，加强学术道德教育和学术规范的常态化教育，加强学者自身素质建设，使作者“不想抄”“不屑抄”，真正建立起风清气正崇尚科学的学术氛围。

　　结语

　　学术不端检测系统是期刊防范学术不端的第一道防火墙，由于软件自身的局限性，产生许多误判、误报，影响编辑对稿件的正常判断，决定了稿件的去留存废。编辑要有责任心、有使命感，理性认知AMLC系统性能，正确认清检测系统的工具性质，依靠而不依赖，必要时积极配合同行专家作出正确判断。工欲善其事，必先利其器，现阶段欲获得防范学术不端的初级胜利，使其“不能抄”，就要打造防范学术不端利器，对检测系统进行大力改进。抄袭和反抄袭是一对不断升级的“矛”和“盾”，只要学术研究的功利性不取消，矛盾的共同体存在，二者的进化就不会停歇。陆游有言：“汝果欲学诗，功夫在诗外。”防治学术不端，不能仅着眼在期刊如何防范，而在于剪断与之相关的利益链，治理学术不端的最高境界就是让人“不想抄”。“解铃还须系铃人”，只有牵住科研评价体系这个牛鼻子，取消论文量化的硬性考核指标，试行“代表作”制度、同行评议制度、工作表现制度等，让有所思、有所悟、有所创造者著论文，才能使学术回归本源。

业内信息

期刊防范学术不端的深度反思——兼谈对AMLC系统的理性认知