业内信息

数字时代期刊反抄袭策略

2016-11-08 来源:编辑之友

  作 者:王文福 黑龙江工程学 院学报编辑部,黑龙江 哈尔滨150050。

  摘 要:数字化网络学术不端检测系统的应用使抄袭行为愈发隐蔽,文章在理性认知AMLC基础上,提出构建以AMLC为主体,基于互联网的期刊学术不端立体防护体系,以编辑为主导,结合同行专家评议的“人机合一”的鉴别体系。

  关键词:反抄袭 AMLC 期刊 学术论文 防范策略

  借助数字化资源学习与研究,是数字时代科技工作者的基木方式,传统“剪刀+糨糊”的资料积累时代已被终结,代之以更便捷的“Ctrl+C 、Ctrl+V”保存方式。同时,学术抄袭变得更广泛和随意。然而,学术界对数字化时代学术抄袭尚未做出迅速反应,还游离在著作权法、知识产权和版权法条款交叉边缘。数字化行业新规尚未建立,数字化时代传统的知识产权保护和学术规范因面临新挑战而陷入窘境。尽管采用数字化网络学术不端检测软件可以对文字抄袭进行筛查,但对于因数字化产生的其他抄袭行为仍茫然无措。这些是数字化时代期刊防范学术不端无法回避而必须直面解决的新问题。

  一、学术不端的内涵

  学术不端是指某些人在学术方面弄虚作假或剽窃他人研究成果,违背科学精神和道德,抛弃科学实验数据的真实诚信原则,极大损害学术形象的丑恶现象;期刊业的学术不端行为还包括发表学术不端论文,学术成果低水平重复发表,售卖版面及增刊或加大页码等,这些行为导致大量学术垃圾充斥出版界,败坏了学术风气,阻碍了科学进步,损害了科技界形象。学术不端问题表现形式主要有:抄袭,一稿多投,伪造、篡改,署名不当,段落或整句摘抄,注释不当,虚假基金项目,学术成果注水、拆分发表等。限于篇幅,笔者在此讨论的学术不端行为,仅限定作者投稿论文重复率过高,涉嫌抄袭的行为,不包括“因学术不规范”而引起的“技术性过失”。

  二、单一检测系统难以独担大任

  目前国内学术不端文献检测系统主要有10种(见下页表1)。中国知网收录的文献类型多,学科覆盖范围广,独家收录期刊种类多。万方论文相似性检测系统以医学类期刊见长。通达论文引用检测系统收录了内刊和地方性期刊,以及“道客巴巴”“豆丁网”“互动百科”“百度文库”“百度百科”“东方财富网博客”“人大经济论坛”等主要网络资源,此外还收录了大量博客内容。国内3种主要学术不端检测平台比较如下页表2所示。

表1 国内主要学术不端检侧系统名称及网址
序号 检测系统名称 网址
1 中国知网学术不端检测系统 http://check.cnki-net/
2 万方论文相似性检测系统 http://check.wanfangdata.com.cn/
3 通达论文引用检测系统 http://www.cqvip.com/gocheck/
4 论文检测专家Gocheck.cn http://gocheck.cn/
5 拷克网CopyCheck http://www.copycheck.com.cn/
6 论文检测大师Check-paper http://www.check-paper.com/fileload/
7 论文检测网PaperPass http://www.paperpass.org/
8 中国搜文章照妖镜 http://www.zhongguosou.corn/zonghe/fanchaoxi.html
9 格子论文 http://www.gezida.com
10 写邦论文检测PaperFree http://www.papefree.cn/
 
表2 国内3种主要学术不端检测平台比较
    中国知网 万方数据 维普资讯
基本数据库
 
期刊
硕博论文  
会议论文  
报纸    
专利    
互联网  
整合的其他资源  
工作参数 重合率称谓 总文字复制比 总相似比 总体结论
格式 mht pdf, mht pdf, mht
全文比对  
片段比对
工作方式 B/S方式 B/S或C/S(高级客户)方式 B/S方式
 
功能特点 检测速度快,准确率高 算法精确科学、报告翔实全面 客观内容创新性检验指标
 
算法特点 自适应多阶指纹特征检测算法 万方先进检测算法 P&V算法
 
  综合评价 优秀 良好 良好
 
 
  编辑部使用最多的是中国知网AMLC5.0。AMLC5.0系统支持3种上传方式,来稿全文整体上传检测秒级耗时,自动追踪复制文献源,支持批量上传论文,高效、快速、操作方便。AMLC检测系统灵敏度高,比对单元小,检测精度可靠。应用AMLC5.0对来稿进行初步筛查无疑是理想的一种选择。

  三、构建以人为主导、网络为主体,“人机合一”的防范体系

  1.以AMLC完成稿件初步筛查

  张旻浩等对国内外学术不端检测系统平台比较研究后认为,以互联网为平台,组织具有强大数据库后台支持的学术不端检测系统对来稿交互补充检测防范效果更好。编辑部对初审合格的稿件先使用AMLC进行初步检测,根据检测结果决定下一步的处理方式(见图1)。编辑对“文字复制比”低约文章进行通读,在充分把握文章逻辑结构的基础上,依据编辑自身的专业知识结构对文章进行深入细致的分析,挖掘文章的现实价值,并确定进一步检测的方法,最后借助同行专家给出文章创新性和学术性的总体判断。


图1 人机一体防范工作流程
  2.对可疑稿件基于互联网深度筛查

  由于一些期刊在中国知网、万方、维普数据库采取独家授权方式,致使哪个数据库都不全,使检测结果缺乏权威性。在使用AMLC检测后有一些存疑稿件,宜采用网络其他辅助方法协助搜索检测。笔者遇到过这种情况,有一篇论文,在中国知网检测为0,当word审阅栏“显示标记的最终状态”时,发现文章在撰写过程中除了修改格式,论文基木没做修改,俨然浑然天成,疑惑间遂补充了其他检测手段,结果发现“维普”检测结果和一篇博客56%重复,“万方”检测和一篇会议论文86%重复,究其缘由,这篇文章原著是网友的博客,经人删改编辑投到会议论文,最后抄袭者又转让给单位同事投到编辑部。编辑部限于人力、物力,普遍实行多网检测确有困难,但对于存疑稿件补充使用多样化的检索工具,并基于互联网进行深度排查还是很有必要的。一些科技期刊在自建的网站上开放存取(OA)已经录用了的稿件(优先发表),给抄袭者以可乘之机,借助Google、Yahoo、Baidu、Sogou、众果搜网等具有强大搜索功能的搜索引擎辅助检索,可以极大地降低学术不端的风险。

  3.发挥编辑作用,人机结合综合判断检测结果

  AMLC毕竟是基于计算机语言的识别系统,不具备人脑对文字所表达的科技文化内涵的理解能力。从AMLC给出的标准和结论只能为编辑出版单位提供度量学术不端行为的参考权值,并不具法律效应,也不能直接判断文章是否抄袭,这在AMLC使用中已有说明。虽然是对付抄袭行为的大杀器,但乌龙和误伤时有发生,最后还要靠人力甄别。这犹如医院的病理化验报告,最终的诊断结果还是要靠医生给出结论。编辑要从学术的角度审视全文,根据文字复制的内容、数量、目的等进行判断,必要的话可以请同行专家进一步“会诊”,电脑不能代替人脑。

  4.自检过的稿件重点排查

  对于作者事先检侧过的稿件,我们再检测时会列为重点筛查对象,通过以下方式做进一步比对。

  (1)从文后的参考文献或检侧结果中的相似文献中查找。在阅读全文的基础上,通过查阅作者文后标注的参考文献或检侧结果中的相似文献,根据比对结果判断文章与己有文献的相似程度,以此来判断作者的稿件是否存在隐性重复的情况,从而对文章做出创新度的判断。

  (2)从检测结果中显示的个别重合文字揭示隐含抄袭源。系统虽不能全文识别图表、公式,但表格中的文字可以实现比对,尤其图题或表题重合文字、公式前引导语,只要依此按图索骥,点击链接相似文献就可以发现抄袭的蛛丝马迹。

  (3)根据文章标题或主要关键词比对。根据文章标题或根据文章内容选择适当的搜索关键词,然后上网通过搜索引擎查找相应的文献,以此来发现文章的隐性重复。但搜到的文献会有“千文一面”之感,此时即便查不到重复,也可进一步鉴别文章的创新性。

  (4)根据正文可能出现的文本框进行判断。有些网页上的文章被整体复制,文本框就出现在新文档里。文字被框在无意义的文本框中,可帮助判断稿件来自网页整体复制。

  (5)根据文中可能出现的“手动换行符”(软回车)符号判断。网页中的整段文字被粘贴到Word文档中,一般情况下就会产生软回车符号,是一些暗灰色的向下的小箭头。打开“显示/隐藏编辑标记”时就可以清楚看到。

  (6)从可能留存在文字上的“超链接”判断。在来稿word文档中,有些词可能带有下划线,并呈淡蓝色,当鼠标移至该处,有提示。超链接属于网页的一部分,若文中存在超链接,则显示文章来源于网页。

  (7)从字体、字号判断。正常来说,正文字体、字号和字间距应该统一,若正文格式并不统一,就有可能是多源拼凑的结果。

  (8)借助于论文本身信息进行判断。

  首先,细读论文,论文内容不通顺,用词生僻拗口,则要进一步寻找是否有外文翻译的痕迹。可选英译关键词或英译题目通过Google做进一步检索。其次,留心作者个人信息。如,手机电话号码归属地与作者单位属地比对,作者研究方向和作者单位比对。从中可以挖掘出代写代发论文。这些论文还有一个共同的特点,就是没有实验根据,数据基本上都是虚构或杜撰的。总之,自检的文章增加了编辑工作量和论文通过难度。因此,若文章撰写规范,笔者不提倡作者自己检测论文,因为仅是技术上的被抄袭,编辑部是会予以甄别的。

  5.关注参考文献中的“姊妹文献”

  参考文献列表中有与正文题目高度一致的文献,笔者称之为“姊妹文献”。“姊妹文献”可能存在相同的“遗传基因”,或有“模仿”可能。虽然模仿不等于抄袭,但二者界限很模糊。模仿是学习创造的第一步,但模仿与抄袭区别在:过程不同,模仿自然要学习,学习之后自然是吸收消化,变为自己的东西,然后结合自身情况产生创新动机和体验,而抄袭则是“Ctrl+V”的简单“粘贴”;动机不同,模仿的动机是学习、创造,抄袭的目的则是窃取他人成果;结果不同,模仿借鉴的结果是创新,抄袭的结果则是盗窃。“天下文章一大抄”虽广为流传,但关键要看你会抄不会抄,会抄就是“活抄”,灵活借鉴运用,“拿来主义”,将别人的东西吸收消化变成自己的东西,融入自己的思想体系,成为自身的创新基础;不会抄就是“死抄”,就是“硬抄”,就是为“抄”而抄,就是窃取。比对时还要特别留意文后著录参考文献里多余的空格,这些往往是在抄袭原文后,将参考文献直接拷贝过来。

  6.练就火眼金睛,看穿“易容术”

  “人巧不如家什妙”,工具固然重要,但对于编辑来说,不能过分依赖于工具的使用,应时刻注意提高个人学术素养,积淀深厚的学术功底和开阔的学术视野,练就火眼金睛,看穿各种虚伪的画皮。

  学术不端检测系统的出现,遏制了明目张胆的抄袭行为,低层次的抄袭得到了有效的控制,但根据进化、生态和行为原理,生物生长遇到障碍时,会产生适应性进化。为了应对系统的检侧,作者能动性地升级了造假版本。所谓“有矛就有盾”,有算法,就有改进的反算法,抄袭者发明了“锣嗦法”“横刀法”“画蛇添足法”“联想法”“改变句子结构法”“关键语替换法”等。如将原文章中的句子、段落内容重新组织语言表达,调整语序、替换词语,或用网上在线翻译软件将论文进行双向翻译,意思没变,就是换了一个描述法,俗称“易容术”,这是躲避AMLC检侧的常用方式。但是狐狸总有尾巴,如语言拗口,表述不精炼、不准确、不通顺。目前系统虽难以检出,但仍留蛛丝马迹,细心审稿可发现全文整体语言风格明显不一致,就像华丽的衣服上,贴了一块粗布“补丁”。

  7.洞察秋毫,巧辨蛛丝马迹

  如果一篇文章的检侧结果是“0",也不正常,试想在信息时代的今天,从事有价值的科学研究能不参考和借鉴他人的经验吗?所有的论点、论据都需要自己去验证和得出吗?所列的参考文献又是如何得出?牛顿说:“如果我看得更远一点的话,是因为我站在巨人的肩膀上。”目前期刊论文篇均引文数量已超15篇,显然,这部分论文刻意规避的嫌疑非常大。若一篇论文的参考文献没有中文,则文章复制外文资料的可能性会较大。若来稿的电子文档上留有多处非正常使用文字编辑的符号,如有的句号是“‘”,逗号是“,”,分号是“;”,冒号是“:”,引号由“”变为"";表不是自行设计绘制的文本表格格式,而是图片格式;图不是清晰绘制而是模糊不清的扫描图,诸如电脑屏幕界面不是彩色截屏,而是黑白的扫描件;文字转换为表格,表格边框被隐藏等。通过这些可初步判定这篇文章有部分内容是直接粘贴复制其他文献资料的,需要重点排查。

  结语

  数字时代是信息光速传播的时代,传播文化的同时,也为抄袭者带来极大方便。虽然学术不端检测系统已完全遏制了低级赤裸裸的抄袭行为,但更智能的抄袭行为却在暗流涌动。无论多么先进的科技手段都不能取代人的智慧和思想觉悟,要从根本上清除抄袭行为仅依靠技术手段进步是行不通的,它与社会风气、科研评价体系、激励机制、法制建设、作者个人学术修养紧密相关,这是一个多元高次方程组,不是无解,而是多解,破解它需要高度的智慧,需要社会的联动,目前只能是一步步地迭代、趋近。












































国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号