源文献挖掘方法在筛查低复制比抄袭论文中的应用_中国（武汉）期刊交易博览会（刊博会）

　　【作　者】韩磊、邱源：山东第一医科大学附属山东省立医院医药卫生期刊中心《山东医药》编辑部

　　【摘　要】［目的］报告应用源文献挖掘方法从低复制比投稿中筛查出的抄袭论文的特点,并详细介绍这一筛查方法,为期刊编辑认识和筛查这类抄袭论文提供借鉴。［方法］选择近3年《山东医药》的来稿中AMLC检测复制比<20%的2421篇论文,应用源文献挖掘方法,先常规检索所有论文的中、英文题名,进一步对有可疑指征的论文进行重点筛查。从各数据库中检出可疑源文献后,与投稿论文进行全文比对,查证是否存在抄袭。［结果］共查证得到存在确凿证据的抄袭论文30篇,分别为抄袭他人9篇、抄袭团队10篇和自我抄袭11篇。其中19篇(63.3%)抄袭论文的源文献通过中、英文题名检出,11篇(36.7%)的源文献通过对可疑论文的重点筛查检出。［结论］低复制比的投稿论文中仍存在多种类型的抄袭论文,查重后再进行抄袭筛查是必要的;应用源文献挖掘方法有助于检出雷同源文献进而查证抄袭。

　　【关键词】医学期刊；学术不端；抄袭；审稿；低复制比；文献检索；源文献

　　近年来的研究表明,医学科技论文中的抄袭行为发生了新的变化,例如从机械抄袭演变为复杂“炮制”、重复发表增多等,且在经过查重的低复制比论文中也可能存在抄袭嫌疑[1,2],抄袭行为的技术化倾向及隐蔽化表现已成为不容忽视的趋势。这类作者往往通过对所抄袭的源文献进行各种“加工”,大幅降低投稿论文的复制比以规避查重检测,对于期刊审稿有很高的欺骗性。如何有效检出这些问题稿件,从而在发表前杜绝学术不端,已成为期刊面临的严峻挑战。但目前编辑对低复制比论文中抄袭行为的认识尚不够充分,对其表现尚不够了解,也缺乏行之有效的筛查流程与方法。

　　由于各类查重软件在来源数据库方面有一定差异[3],加上有的抄袭源文献语种为英文,因此对低复制比抄袭论文的识别不应局限于查重结果,迫切需要衍生出相应的审核对策。目前,也有一些期刊编辑提出了多种筛查方法[1,4],但所报道的案例多为个例,且以偶然发现居多,其有效性和目的性尚不够突出;这些方法实效如何,怎样组合形成系统性、可操作性的审核流程,也鲜有报道。笔者在实践中也发现一些筛查方法的效果不甚理想,例如采用审稿专家把关的筛查方法时,易出现对抄袭的报告率不高、查证依据不够确凿的情况,表明仍需立足于编辑自身来提升审核能力。

　　在数据库中挖掘出抄袭论文所对应的源文献,是进行全文比对的前提和查证抄袭的关键。但对于编辑而言,检索到可供比对的源文献尤其是英文源文献的难度较大[5]。近3年来,笔者围绕源文献检索这一核心环节,在对2421篇低复制比论文的审稿中,应用源文献挖掘方法,检出30篇证据确凿的抄袭论文及200余篇高度疑似的抄袭论文,有效阻遏了这类隐蔽性学术不端论文的出版。本文以这30篇确证抄袭论文为例,分析其基本特征、抄袭类型,为编辑了解低复制比抄袭论文提供依据;介绍源文献挖掘方法,以利于编辑掌握源文献检索方法、提升对抄袭源文献的挖掘能力,为医学科技期刊筛查抄袭论文提供方法借鉴。

　　1 审稿经过及抄袭查证方法

　　1.1 审稿经过

　　2421篇论文为2016年12月1日至2019年11月30日《山东医药》的来稿,先经中国知网科技期刊学术不端文献检测(Academic Misconduct Literature Check,AMLC)系统自动检测后,文字复制比<20%符合收稿要求,依次进入初审、复审的流程。在复审中先应用源文献挖掘方法进行抄袭筛查,查证为未涉及抄袭的论文方才按复审常规流程进行学术性评价。

　　1.2 抄袭查证方法

　　在复审中应用源文献挖掘方法(详见第2节),从各数据库中人工筛查是否存在雷同源文献。发现可疑源文献后,下载源文献,与投稿论文进行全文比对。采用比较判断法、程度判断法,从雷同内容的“质”与“量”两个方面评价是否存在抄袭[6]。源文献为英文论文时,根据句意、语句顺序、行文模式、参考文献判断是否为翻译内容,并比对数据、表格形式、图片是否存在雷同[7]。

　　1.3 抄袭判定标准

　　《科技期刊出版伦理规范》指出,对于某些证据确凿的学术不端行为(如文本剽窃、图像不当处理等),期刊可进行初步调查,并进行相关资料的收集;但同时也指出,即使在发现明显的抄袭行为后,编辑也需要谨慎,不宜妄下定论[8]。笔者也认为,以编辑身份评判来稿中的抄袭行为时,应依据更加严格和更高的标准,强调证据的确凿性,需要在业内通行的抄袭判定标准基础上,适当提高雷同篇幅的比例,并增加图片、数据雷同这类硬性指标。因此,在本研究中,笔者综合《中华人民共和国著作权法》、出版行业标准、研究文献中对抄袭的判定标准[6-7,9-11],以及在抄袭证据确凿性方面的综合考虑,规定查证抄袭需同时满足以下4项标准:(1)检出抄袭的源文献;(2)与源文献全文比对后,存在超过50%篇幅的意思式(或翻译式)相同;(3)存在与源文献实质性内容相同;(4)存在与源文献相同的多个图片和(或)数据。

　　2 源文献挖掘方法

　　复审中实施源文献挖掘的流程如图1所示。

图1 复审中实施源文献挖掘的流程
注：查证过程包括检出可疑雷同文献、全文比对、依据判定标准进行查证。

　　2.1 常规检索中英文题名

　　对所有进入复审阶段的论文,不论质量如何,均将中英文题名在数据库中进行题名检索,查看有无完全相同或相近题名的文献。阅读疑似文献的摘要后,如发现选题、研究对象、分组、研究方法、研究指标等有一定的类似,则下载疑似文献全文,与投稿论文进行全文比对,分析全文雷同情况。

　　由于百度学术对于多个中英文数据库具有较理想的整合,如对中国知网、万方数据、维普网的中文期刊覆盖率大于96%,中文学位论文覆盖率大于90%,对SCI、SSCI、EI数据库的覆盖率大于94%,对多个英文全文数据库的覆盖率大于95%[12],因此本研究选择在百度学术中进行中英文题名检索。

　　2.2 联合方法重点筛查可疑论文

　　2.2.1 警惕并圈定具有可疑指征的论文

　　观察论文中是否存在可疑指征,主要包括:缺少英文题名、中英文形式的作者姓名或作者单位名称;作者单位级别与论文研究水平差异较大[13];第一作者学历与论文研究水平差异过大;作者从事专业与论文研究领域不一致;作者IP地址、手机号码归属地与工作单位所在地不一致[14];存在较多的标点符号混乱(包括中英文标点混用、多余空格、全角半角混用、出现软回车符等);论文为英文论文体例;图片均以集合图片(即将多个单张图片整合至一个整张图片)形式呈现、图片模糊、图片中存在涂抹痕迹;存在较多的格式混乱如行间距不一、相邻字的字号不一等。

　　2.2.2 重点筛查方法

　　对于有上述可疑指征的论文,进一步采用多种方法进行重点筛查。

　　(1) 检索作者的已发表文献。在中国知网、万方数据库或百度学术中,以“作者”为检索项,以作者姓名为检索词,文献分类目录限定为“医药卫生科技”,检索作者的既往发表论文情况,重点以第一作者、通信作者姓名进行检索。

　　(2) 筛查AMLC结果的重复文献。查看AMLC检测结果页面“重合文字来源”中列出的文献。

　　(3) 检索中、英文摘要及关键词。将中、英文摘要以逐句形式,将全部关键词以整体形式在百度学术、PubMed数据库中检索。

　　(4) 更换查重系统进行文字复制比复检。将投稿论文上传至万方数据库“万方检测学术预审版”,进行文字复制比复检。

　　3 低复制比抄袭论文的查证结果

　　3.1 查证结果

　　应用源文献挖掘方法共筛查出30篇存在确凿证据的抄袭论文,均符合四项判定标准,予以判定为抄袭。查证抄袭后均给予退稿,并告知作者查证结果及所检出的源文献,没有收到作者的异议及申诉。

　　另发现证据确凿性不强或仅存在单纯文本抄袭的高度疑似抄袭论文200余篇,例如与可疑源文献的雷同篇幅为(30%,50%)、全文仅文本雷同而缺少图片及数据硬性指标等。其中除少数论文通过向作者索取原始资料、电话或邮件调查等,审慎验证真实性后进入后续审稿流程外,其余大部分均以内容问题予以退稿。

　　考虑到抄袭证据的确凿性以及本文作为学术研究的严谨性,以下以30篇存在确凿证据的抄袭论文为例进行分析。

　　3.2 30篇抄袭论文的基本特征

　　30篇抄袭论文的AMLC文字复制比均小于20%,其中复制比为(0,10%]的论文共19篇,复制比为(10%,20%)的论文共11篇,平均复制比为8.9%。初审评价意见大多为在论文体例和学术质量方面具有较好表现,这可能与此类论文重复于已发表文献、总体质量相对较高有关。研究领域为基础医学(研究对象为细胞、动物类)的论文9篇,临床医学(研究对象为人类患者)论文21篇。这30篇论文均为非综述性论文,均具有中英文摘要。

　　3.3 抄袭类型

　　按源文献的作者对象,可分为抄袭他人(9篇,其中英文论文3篇,中文论文6篇)、抄袭团队(投稿论文第一作者为源文献的参与作者,共10篇,其中英文论文5篇,中文论文5篇)和自我抄袭(11篇,其中英文论文4篇,中文论文7篇),见图2(a)。按源文献的语种,可分为抄袭中文论文(18篇)和抄袭英文论文(12篇),见图2(b)。按源文献的数量,可分为单源抄袭(即抄袭自1篇源文献,25篇)和多源抄袭(即抄袭自2篇及以上的源文献,5篇),见图2(c)。19篇论文中存在与源文献雷同的图片,表现为抄袭他人图片、重复利用本人已发表图片、更换指标一图多用、缩进图片等。自我抄袭论文的作者均未在投稿时声明曾在他刊发表过及发表刊名、发表时间等信息。

图2 30篇抄袭论文的抄袭类型
(a)按源文献的作者对象分类;(b)按源文献的语种分类;(c)按源文献的数量分类

　　3.4 30篇抄袭论文的源文献检出方式

　　30篇抄袭论文的源文献检出方式分布如图3所示。

图3 30篇抄袭论文源文献检出方式的分布

　　3.4.1 检索中、英文题名

　　共19篇(63.3%)抄袭论文的源文献通过检索中、英文题名的方式检出。其中9篇论文检出了中文源文献,包括中文题名完全相同的文献3篇,题名相近的文献6篇;10篇论文检出了英文源文献,包括英文题名完全相同的文献8篇,题名相近的文献2篇。

　　3.4.2 检索作者的已发表文献

　　共7篇(23.0%)抄袭论文的源文献通过检索作者已发表文献的方式检出,其中通过第一作者姓名检出论文2篇,通过通信作者姓名检出论文5篇。这7篇论文的可疑指征包括缺少英文形式的作者姓名及单位名称、较多集合图片、英文论文体例、作者单位级别与论文研究水平差异较大。抄袭的源文献数量最多者来源于通信作者的4篇已发表论文,投稿作者进行了文字改写、内容删减重组、将表格转换为文字等。

　　3.4.3 在AMLC结果的重复文献中筛查

　　1篇(3.3%)抄袭论文的源文献通过在AMLC结果的重复文献中筛查的方式检出,源文献为他人的学位论文。该论文的可疑指征为缺少英文形式的作者姓名及单位名称。经比对两篇论文的标题,发现研究对象均为结直肠癌组织,源文献题名中共5个研究指标,而抄袭论文的题名则只列出了其中3个研究指标,这可能是通过题名检索未精确检出的原因。比对两篇论文的全文,发现分组及研究方法完全一致,3个研究指标完全一致,6幅免疫组化图片完全一致,行文模式高度雷同。在文字表达方面,大部分内容为意思式雷同,如源文献中的表述“CXCL12在不同的组织中,例如大脑、肺、结肠、心脏和肝脏等存在广泛表达,是一种多效性的趋化因子,能激发多重信号转导”,而抄袭论文则表述为“CXCL12是一种多效性的趋化因子,在脑、肺、结肠、心脏和肝脏等组织中广泛表达,能刺激多种信号转导”。作者通过调整语序、变换词语、增减个别字等进行文字改写,可能是导致该文复制比仅有10.9%的重要原因。

　　3.4.4 检索中、英文摘要及关键词

　　2篇(6.7%)抄袭论文的源文献通过检索中、英文摘要及关键词的方式检出。这2篇论文的可疑指征包括缺少英文形式的作者姓名及单位名称、较多集合图片、英文论文体例。其中一篇抄袭论文的源文献通过在百度学术中检索英文摘要的“Objective”内容而检出,为作者已在英文期刊发表过的相同内容英文论文,作者对英文题名进行了较大改动,但两篇论文的正文内容均为翻译式雷同,且全部数据、图片完全一致。另一篇抄袭论文的源文献通过在PubMed中检索全部英文关键词而检出,为第二作者已发表的英文论文。经比对全文,发现作者对英文题名也进行了较大改动,两篇论文的英文摘要大部分雷同,正文大部分为翻译式雷同,而且绝大多数的数据完全一致;此外,两篇论文中同一个对照组的数量分别为30例和40例,但该组多个指标的数据却完全一致,因此该抄袭论文也存在数据造假的可能。

　　3.4.5 更换查重系统进行文字复制比复检

　　2篇(6.7%)抄袭论文的源文献通过更换查重系统进行文字复制比复检的方式检出。这2篇论文的可疑指征包括较多集合图片、作者单位级别与论文研究水平差异较大、存在局部格式混乱。

　　一篇抄袭论文的AMLC文字复制比仅为8.7%,但经万方数据库查重,发现作者曾于2009年在中华医学会所属某期刊发表过同名论文,万方查重的总相似比为45.6%,经全文比对发现这两篇论文的内容、数据完全一致。这也印证了仅使用一个查重软件可能会因数据库文献收录不全而存在漏检的可能[3],尤其对可疑论文,不应依赖单一查重软件的结果。

　　另一篇抄袭论文在AMLC、万方数据库的查重结果分别为9.6%和56.8%,万方的查重结果提示第一作者曾于2014年公开发表过完全相同的论文,经全文比对发现这两篇论文完全一致,但在AMLC重复文献的检测结果中却无此文献。在中国知网数据库检索该文,其对应的文献页面显示“页面不存在或已删除”。经电话询问作者,作者承认曾在某医学期刊公开发表过该文的事实,并说明在发表后主动要求从中国知网数据库中撤稿。而正是因为该源文献在中国知网数据库的缺失,造成了AMLC未检出雷同文献,从而得出了非常低的查重结果。值得一提的是,期刊编辑在电话中询问作者撤稿原因时,作者的态度始终是遮遮掩掩。不论如何,由于该文的2014年版本仍在万方数据库中正常收录,已经形成事实上的数字出版,因此该文的及时检出和退稿,不仅打击了一次学术不端行为,也避免了一起期刊重复发表的事故。

　　4 讨论

　　4.1 在查重后低复制比的投稿论文中仍存在多种类型的抄袭论文

　　本研究展示了在低复制比投稿论文中仍存在抄袭论文的多样本实证,分析了其源文献来源、抄袭类型,为编辑认识这一新型、隐蔽的抄袭行为提供了可靠依据,有助于编辑在审稿中提高警惕。目前,国内鲜有对此类抄袭论文实证案例的集中报道,本研究为编辑明确直观地认识、分析这些隐蔽性抄袭行为提供了案例参考。

　　本研究结果表明,在筛查出的30篇低复制比抄袭论文中,抄袭他人、抄袭团队、自我抄袭均存在,也的确有作者将他人或自己已发表的英文论文翻译成中文后再投稿,也有的作者采用抄袭多篇论文的方式组合成一篇新论文。另外,对于检出的200余篇高度疑似抄袭论文而言,虽未达到本研究规定的较高判定标准,但也存在来源可疑的高度提示价值,提示需要加大对其真实性的审查,一定程度上也有助于对可疑论文的识别和审稿决策的判断。这些隐蔽多样的抄袭行为均加大了对抄袭论文的识别难度,从某种程度来看其性质更加恶劣。

　　4.2 源文献挖掘是筛查低复制比抄袭论文的有效方法

　　由于低复制比抄袭论文均重复于已发表文献,质量相对较高,对于编辑和审稿人具有很高的欺骗性,对其进行筛查既是新的审稿着力点,也是难点。检出被抄袭的源文献是最核心的查证依据,但对医学科技期刊而言,在该方面尚面临诸多困难。除了“加工”后的论文难以经查重软件检出源文献外,多种查重软件检测结果不一致、中文查重系统难以检测到跨语种抄袭[15]、编辑对文献检索方法掌握不够全面等情况,均影响了对抄袭源文献的检出及查证抄袭。

　　本研究应用多种源文献挖掘方法,在对查重后低复制比论文的审稿中共查到30篇具有确凿证据的抄袭论文。其中63.3%的抄袭论文为通过检索中、英文题名而检出抄袭源文献,表明进行中、英文题名检索是非常有效和必要的,有助于检出题名相同的跨数据库、跨语种雷同源文献,应将其作为一个常规筛查流程。其余36.7%的抄袭论文为通过对可疑论文的重点筛查而检出了抄袭源文献,表明审稿中应重视对论文可疑指征的观察,进一步进行重点筛查。本研究总结出的可疑指征,也为编辑在审稿中警惕问题论文提供了提示性信息。

　　就本研究提出的4种联合筛查方法的选择而言,笔者认为,4种方法应是逐一采用且是逐步递进的,如采用第一种筛查方法无明显发现时,应继续采用后续筛查方法。在采用多种查重系统如AMLC与万方进行重复检测时,考虑到投稿量较大的期刊在查重复检的流程、时间、检测费用等方面可能不易大规模实施,以及本研究所得的万方复检检出率只有6.7%的结果,故建议一般可将其作为最后一步的筛查策略。

　　此外,笔者在长期的实践中也体会到,源文献挖掘方法是新增的审稿环节,将导致每篇稿件的审稿时间有所延长,编辑的工作量也有所增加。尤其是对于具有可疑指征的论文,编辑在观察可疑指征、利用多个途径检索、筛选可疑文献、阅读摘要、比对原文、更换数据库查重等方面,均需要额外付出一定的时间和精力。但考虑到当前防范这一新型、隐蔽性学术不端行为的迫切性,作为科研诚信把关人的编辑,仍有必要多一份付出,去适应这个新变化,即使是多审核出一篇学术不端论文都是有价值的,都是为净化学术氛围做出的努力。

　　5 结束语

　　在查重后低复制比的投稿论文中仍可能存在多种类型的抄袭论文,值得引起医学科技期刊编辑的高度警惕和重视;在查重后,应用源文献挖掘方法进行抄袭筛查是必要的,应将其作为一项常规的审稿流程。审稿中应对所有低复制比论文进行中、英文题名检索,并对可疑论文进行重点筛查,有助于查证抄袭。为更有效、及时地遏制这一行为,建议期刊应探索和完善对发表前学术不端行为的公开通报、黑名单制度等,相关部门应加大对学术不端行为的惩罚力度及宣传教育力度,上述措施尚值得在今后的研究中进一步探索。

　　本研究仍存在一定的不足,如对已有确凿证据的抄袭论文检出率尚不高,在查证时间与效果方面尚未做到较好的兼顾,该方法应用于初审阶段的价值也尚缺乏经验,仍需在今后的研究实践中进一步探索。同时,部分低复制比论文虽高度可疑,但经以上筛查方法仍未能检出明确的源文献,不排除作者进行了更加深度的改写、组合抄袭或论文由中介公司代写杜撰而来,也不排除有个别作者利用见刊时滞在短期内先后将稿件投向中、英文期刊[16],表明在筛查方法方面仍值得进一步探索,防范这些新型、隐蔽性学术不端行为仍然任重道远。在未来的研究中,探索更有针对性、兼顾效果及效率的审核策略,以更加有效、简便地检出这类抄袭论文,是值得深入研究的方向。

　　参考文献

　　[1]吴昔昔,贾建敏,吴健敏,等.低重复率稿件中的学术不端行为检测与防范[J].编辑学报,2016,28(3):266-269.

　　[2]吴宁.科技期刊中学术不端行为的演变及应对措施[J].编辑学报,2019,31(4):369-371,376.

　　[3]李小萍,武建虎,岳建华.编辑应警惕反抄袭软件应用依赖症[J].中国科技期刊研究,2013,24(3):589-590.

　　[4]王立欣.当好学术“守门人”——论学报编辑在防范学术论文抄袭剽窃中的作为[J].编辑学报,2007,19(2):139-140.

　　[5]张重毅,方梅.科技论文隐性学术不端行为判别特征分析[J].中国科技期刊研究,2019,30(1):24-28.

　　[6]秦珂,尤太生.抄袭、剽窃的判断与法律责任[J].图书与情报,2008(5):68-71.

　　[7]袁杏桃.剽窃行为认定及规制[J].中国出版,2014(19):22-25.

　　[8]中国科学技术协会.科技期刊出版伦理规范[M].北京:中国科学技术出版社,2019.

　　[9]国家新闻出版署.学术出版规范期刊学术不端行为界定:CY/T174—2019[S/OL].(2019-07-01)[2019-08-12].http://std.samr.gov.cn/hb/search/stdHBDetailed?id=8CE62167243C7EE9E05397BE0A0A9716.

　　[10]孟月.国内外关于自我剽窃的研究现状综述[J].中国科技期刊研究,2016,27(5):485-491.

　　[11]胡文莉.基于科技论文特点的自我剽窃剖析[J].编辑学报,2013,25(S1):S38-S40.

　　[12]洪道广,缪灵敏.百度学术的数据整合——基于学术数据库覆盖率的案例研究[J].现代情报,2018,38(3):133-137.

　　[13]刘清海.从来稿基本信息着手发现学术不端的线索[J].编辑学报,2014,26(5):449-451.

　　[14]关珠珠,李雅楠,郭锦秋.医学期刊编辑初审过程中对“枪手”论文的识别[J].编辑学报,2018,30(1):61-63.

　　[15]袁松翔,刘功申.基于译文特征的中英文跨语种抄袭识别[J].上海交通大学学报(自然版),2012,46(6):989-993,998.

　　[16]朱银周.稿件中学术不端行为检测结果的动态变化与成因分析[J].中国科技期刊研究,2018,29(2):130-136.

业内信息

源文献挖掘方法在筛查低复制比抄袭论文中的应用