【摘 要】针对近年来国外期刊中国作者大规模撤稿事件频发现象,对1990—2019年中国作者SCI撤稿数量、原因与主要撤稿领域特征进行系统研究。研究表明:1990—2019年中国作者SCI撤稿数量为9070篇,SCI撤稿率在0.01%~2.49%间,平均撤稿率为0.47%。1991—2003年,中国SCI撤稿数量一直相对较低;自2007年开始,撤稿数量急剧增加,在2010—2011年达到峰值;2012—2019年,中国撤稿数量较为稳定。目前中国绝大部分撤稿集中在生物、计算机、经济、管理、工程等几个领域。主要撤稿原因为24种,其导致的撤稿占所有撤稿数量的90%以上。除未给出详细原因的撤稿之外,其余撤稿原因包括作者违反期刊及出版商或机构的政策、伪造作者信息、篡改数据、剽窃、数据错误。在2007年之后,伪造数据与违反出版政策成为撤稿的主要原因,分别导致35%~43%和17%~21%的撤稿,近年来伪造评审意见呈多发趋势。未来需要从加强科研道德建设、提高同行评审质量、营造良好的科研环境等几方面提升国内学术诚信。
【关键词】撤稿;变化特征;领域;SCI;中国作者
近年来我国学术不端造成的撤稿事件层出不穷[1-3]。2017年4月20日,世界最大学术出版机构施普林格出版集团发表声明,其旗下期刊《肿瘤生物学》(Tumor Biology)2012—2015年的107篇与中国研究机构有关的论文,因涉嫌同行评审造假而被撤回。这次撤稿事件创下了正规学术期刊单次撤稿数量之最,同时也极大地损害了我国的科研声誉[4]。建立学术诚信、净化科研氛围、树立科研道德,成为目前我国科研管理工作的重中之重[5]。
撤稿现象并不仅仅出现在中国,国外的撤稿原因也多为剽窃、重复发表等学术不端行为,成为学术界面临的重大问题[6]。撤稿作为一种回溯机制,并非均由学术不端引起。由于科研工作存在极大的不确定性,实验技术缺陷、数据假阳性及数理统计分析过程中方法谬误,往往会导致非主观的错误结论。而论文是否发表是基于同行评议的结果最后裁定,因此论文发表过程中客观上存在撤稿的风险。一般而言,由作者或读者检阅数据、方法等对论文进行多次审阅后,对非主观意图所造成的、存在错误的论文进行撤稿并非学术不端,相反是值得赞赏的行为,体现了科学研究的严肃性[7-9]。然而,近年来国内外大多数撤稿的作者多存在主观造假或者学术不端意图。如何防微杜渐,净化我国科研氛围,是目前我国科研工作中需要重点关注的科学问题[10-15]。基于此,本项目拟在获取中国作者在国外SCI期刊撤稿数量变化的基础上,利用大数据分析,探讨我国作者撤稿的历史变化、主要领域与撤稿理由,分析导致撤稿的主要原因,为防止学术不端提供科学依据。
1 数据来源与分析
1.1 数据来源
本研究重点关注中国作者被SCI期刊撤稿的论文。采用的数据主要从全球最大的学术不端数据网站“撤稿观察”(https://retractionwatch.com)获取。在研究过程中,以国家区域为主要关键词,设为中国(China,包括港澳台地区),时间范围为1990-1-1日至2019-12-31日,共检索出9984篇中国作者的撤稿论文。由于该数据库禁止网络爬虫爬取,因此将所有数据导出,并逐条进行人工复检。由于在该网站中单日显示最大的数据量为600条,因此部分日期文献显示不全。最终获取有效文献数量为9070条,约占所有撤稿数量的91%,反映了我国SCI论文撤稿的主要信息。
1.2 数据处理
在获取数据过程中,对每一条撤稿文章记录其doi、所属研究领域、撤稿期刊/论文集、单位所属地域、发表日期、撤稿日期、撤稿原因。在实际研究中,为了对数据进行归一化处理以便于数理统计,将相关数据进行整理简化:包含多个研究领域的,保留前2个主要研究领域;包含多个单位的,取第一作者单位进行分析;单位之间具有附属关系的,例如xxx大学xx附属医院,该单位信息保留为xxx大学。在数据分析之前对相关数据逐条进行人工核验确保信息正确。
1.3 统计分析
为了揭示被撤稿论文的主要研究领域,采用R语言中的wordcloud包对相关信息进行词云分析。采用R语言、Origin、SPSS等分析软件进行数理统计分析及制图。
2 结果
2.1 中国作者撤稿历史变化趋势
1990—2019年,在撤稿观察数据库中,共检索到来自中国作者的9070篇撤稿。中国最早的撤稿记录出现在1992年。1991—2003年期间中国撤稿数量一直相对较低,基本在每年10篇以下。2004—2006年间撤稿数量开始增加,但数量较少,基本在每年百篇以下。自2007年开始,中国撤稿数量急剧增加,2010年达到最高值,在2011年中国撤稿数量依然极高,超过2000篇。之后在2012—2019年,中国撤稿数量较为稳定,在100~400篇之间(图1)。

图1 中国撤稿数量及与SCI发表论文数量/篇
中国SCI论文的撤稿率随着中国SCI论文发文量的增加呈现出先增加后减少趋势(图1)。20世纪90年代撤稿率一直处于较低水平,在此期间,中国的SCI论文发稿数量也较低,例如1995年SCI论文数量为13134篇,1996年SCI论文数量为30499篇。2000年后,随着SCI论文数量的增加,撤稿数量也随之增加,2007年中国SCI论文数量达到89147篇,而对应的撤稿数量达到228篇。2007—2010年撤稿数量急剧增加,并在2010和2011年达到高峰,分别为4122篇和2243篇。2011年后,虽然中国SCI发文量急剧增加,但撤稿数量急剧减少,而后处于较为稳定的状态,表明我国的科研诚信状况极大改善,学术道德建设卓有成效。相关性分析表明,2005—2010年撤稿数量与发文量之间存在极显著的正相关关系,拟合系数为0.7225(图1)。
1991—2019年,中国SCI撤稿率在0.01%~2.49%之间,平均撤稿率为0.47%。在2011年后中国SCI论文发文量大幅度增加的情况下,撤稿率急剧下降后维持在较低的水平,在2012—2015年,平均撤稿率为0.13%(图2)。

图2 中国撤稿率变化趋势
2.2 中国撤稿领域词云分析
对1990—2019年撤稿论文所属的研究领域关键词进行词云分析,结果表明,目前中国绝大部分撤稿集中在技术、生物学、计算机、经济、管理、工程、数学等领域,其次为生物化学、社科、药学、细胞、化学等方面(图3)。

图3 1990—2019年中国作者撤稿论文领域词云分析
2000—2005年中国作者撤稿领域主要集中在生物、工程、生物化学、经济、技术、机械、基因、细胞、计算机等方面。2006—2011年中国SCI论文发文量急剧增加,在此过程中撤稿领域也发生部分变化,呈现出多元化趋势,主要集中在生物、技术、经济、管理、计算机、工程、数学等方面;除了生物领域依然是撤稿最为集中的领域之外,经济、社科、计算机领域等撤稿数量急剧增加,尤其是计算机与经济领域撤稿数量大幅度增加。原因在于,一方面,在2006—2011年,中国经济急速发展,计算机设备广泛普及,由此带来的计算机研究成为热点研究方向;另一方面,我国经济发展同时也促使经济研究成为研究热点。
2012—2015年,中国作者撤稿领域主要集中在生物、计算机、管理、社科、经济、技术、数学、商业等方面。2016—2019年,中国撤稿领域主要集中在生物、计算机、管理、经济等方面。同之前撤稿领域相比,2016—2019年撤稿领域词云分布呈现出均质化趋势,除了生物领域依然为撤稿的高发领域之外,其余领域分布相对较为均匀。
2.3 中国作者撤稿原因分析
中国作者撤稿的原因主要包含24种。对应的原因解释可以在https://retractionwatch.com/retraction-watch-database-user-guide/retraction-watch-database-user-guide-appendix-b-reasons/中进行查阅(表1)。通过对比发现,本研究中撤稿原因繁芜,无法与我国新闻出版行业标准《学术出版规范期刊学术不端行为界定(CY/T 174-2019)》撤稿类型对应,因此在本研究采用撤稿观察网站中撤稿原因的分类进行分析。
表1 中国主要SCI撤稿原因中英文释义
原因 | 英文释义 | 中文释义 |
R1 | Author Unresponsive | 作者不回复 |
R2 | Complaints about Author | 对作者提出指控,但是并不涉及论文 |
R3 | Concerns/Issues About Data | 数据有效性有疑问、争议 |
R4 | Concerns/Issues about Third Party Involvement | 作者身份存疑,但不包括伪造作者身份 |
R5 | Ethical Violations by Author | 作者的行为与公认的行为标准相悖 |
R6 | Concerns/Issues About Authorship | 作者权利的有关纠纷,不包括伪造作者身份 |
R7 | Euphemisms for Plagiarism | 文本、图像等不当引用 |
R8 | Fake Peer Review | 伪造同行评议,或审稿人违背学术道德 |
R9 | Plagiarism | 文本、图像等剽窃 |
R10 | Unreliable Results | 结果的准确性和有效性存疑 |
R11 | Copyright Claims | 版权纠纷 |
R12 | Duplication | 重复发表或一稿多投 |
R13 | Forged Authorship | 投稿时使用作者姓名的欺诈行为 |
R14 | Lack of IRB/IACUC Approval | 未获得机构伦理审查委员会许可 |
R15 | Falsification/Fabrication of Data | 篡改数据 |
R16 | Investigation by Journal/Publisher | 由期刊发起的调查与指控导致撤稿 |
R17 | Objections by Third Party | 第三方机构指控 |
R18 | Limited or No Information | 撤稿原因信息较少或不做解释 |
R19 | Breach of Policy by Author | 作者违反出版政策 |
R20 | Date of Retraction/Other Unknown | 发布者用撤回通知覆盖原始文章页面 |
R21 | Lack of Approval from Author | 未能取得作者的同意 |
R22 | Error in Data | 数据错误,包括输入、收集或识别方面 |
R23 | Ethical Violations by Third Party | 第三方行为与公认的行为准则相反 |
R24 | Error by Journal/Publisher | 期刊编辑或出版商所犯的错误 |
表1中原因(R1~R24)导致的撤稿数量占所有撤稿数量的90%以上。词云分析表明,大部分论文被撤稿的原因主要为R18,这表明大多数的撤稿行为并未给出详细的原因解释,因此并不能直接定性为学术不端行为(图4)。其他主要撤稿原因为R17、R19、R21、R15、R11、R8等,其中伪造作者信息、篡改数据、伪造评议等行为均属于严重的学术不端行为。

图4 1990—2019年中国撤稿原因分布
2000—2006年,由R1导致的撤稿是最主要的撤稿原因,占了年撤稿总数38%~55%;在2007年之后,R18与R15成为撤稿的主要原因,分别占了35%~43%和17%~21%。除此之外,R17也是最主要的撤稿原因,2001—2020年,占了7%~21%(图5)。

图5 不同撤稿原因导致的撤稿占比年度分布
2.4 中国作者撤稿期刊分析
统计分析表明,来自中国的撤稿主要分布在1593种期刊中,撤稿数量最多的为相关论坛与会议论文。其中,美国电气和电子工程师学会(IEEE,Institute of Electrical and Electronics Engineers)举办的相关会议及论坛中的撤稿数量为1002篇,主要与计算机、机械、数学等领域有关,占所有期刊撤稿量的11.4%,主要集中在2010年。撤稿数量最多的前20种期刊/会议见图6所示。

图6 中国作者撤稿期刊与撤稿数量分布(排名前20)
从图6可以看出,会议论文是撤稿论文数量分布的重灾区,排名前20的撤稿合计4288篇,占中国作者撤稿数量的50%左右。可能主要由以下两种原因造成:一是由于高校、医院、研究所等机构设定了相关的论文考核指标,例如,部分院校要求教职工每年必须完成指定数量的SCI、EI论文数量考核,并且与职称评定、个人薪资、福利、人才称号相挂钩,这导致发表SCI、EI论文成为刚性需求。二是由于会议论文通常发表更为宽松,部分会议论文缺少或者根本不进行同行评审,并且为了吸引参会者,通常会打出“包检索”的会议口号,这吸引了大量的国内参会者。然而此类会议的目的并非是促进国内外学术交流,而在于赚取高昂的会议费,还会导致国内大量科研经费外流与浪费。同时,这些会议或期刊通常影响因子极低,游走在被SCI、EI检索收录的边缘。例如,2017年4月21日,Tumor Biology撤稿107篇论文,其中绝大部分为中国作者的,主要原因为通过第三方机构引入与伪造同行评议,目前该刊已经被剔除SCI检索。甚至部分会议会与一些口碑较差的期刊进行合作,以盈利为目标共同贩卖论文版面。
低水平开放获取期刊的快速发展也在一定程度上导致了大量良莠不齐的论文发表。PLoS One也是国内撤稿数量较多的期刊。PLoS One在创刊前期,影响因子高达4.35,中科院SCI分区表中在2011年将其划归为2区期刊,由于PLoS One并不注重强调论文的创新性,且在国内分区较高,这直接刺激了大量中国论文的投稿。虽然近年来PLoS One的影响因子直线下降,但是依然在SCI检索范围内,成为有论文需求作者的选择之一。
3 讨论与结论
随着我国经济发展与科研投入的加大,过去几十年国家科研水平及科研能力得到了大幅度提升。目前我国已经成为世界第一大论文产出国,这对于我国经济发展与国计民生质量提升具有极大的促进作用。然而,随着论文产出量的增加,也出现了大量的撤稿,究其原因,主要是在过去几十年中,我国大量的人才评定、高校评审、个人晋升、工资待遇与论文数量、影响因子高低等密切挂钩,缺乏对科技快速发展下个人科研业务能力的有效评审机制,过分强调通过数数量、比影响因子等简单粗暴的方式对人才进行评价,偏离了科研、学术的基本准则,并且将论文数量、影响因子与个人薪酬晋升密切挂钩,强烈地刺激了对论文产出数量与速度的需求,为论文造假、剽窃等学术不端行为提供了温床。目前依然可以在网上检索到大量的论文代写代发等信息与业务。此外,部分以盈利为主的所谓的学术交流活动等,为了经济利益与部分出版商合作举办各种会议与交流活动,在收取高昂费用同时,完全摒弃同行评议,导致大量良莠不齐的论文产生。这种情况在2009—2011年最为严重,导致了撤稿数量激增。
国内相关机构对于论文作者评审往往只认可论文的第一作者或通讯作者的贡献,这一点与国外的评价机制存在较大差异。一般在国外论文中是按照作者贡献署名,例如第一作者是撰写论文的主要贡献者,通讯作者则是论文主要研究思想的提出者,其他作者贡献在相关项目申请、奖项评审、职称晋升等也是被认可的。这一点与国内差异迥然。例如,在国家自然科学基金委的申请书中,需要对论文的第一作者或者通讯作者进行特殊标注。这种情况导致对第一或者通讯作者署名的争夺比较激烈,体现为撤稿论文中与作者署名有关的撤稿比例较高。
大量的撤稿不仅造成我国学术声誉受损,而且也造成了科研经费浪费。如果按照撤稿论文中相关收费标准为1500美元/篇(按照PLOS One收费标准),9070篇撤稿论文中涉及的版面费约为9500万元人民币(假定所有撤稿均收费)。
2007年,科技部联合教育部、中国科学院、中国工程院、国家自然科学基金委员会、中国科协等部门,建立了科研诚信建设联席会议制度,对我国科研诚信进行监督,并对涉及科研不端行为进行调查与处罚。自此,我国颁布了多个规范科研不端行为的规章制度,包括《关于加强我国科研诚信建设的意见》《关于进一步加强科研诚信建设的若干意见》《科研诚信案件调查处理规则(试行)》等。2019年,国家新闻出版署发布了《学术出版规范期刊学术不端行为界定(CY/T 174-2019)》的行业标准,对学术期刊论文作者、审稿专家、编辑所可能涉及的学术不端行为进行了界定,为学术不端行为的认定与惩处提供了规范性文件。这一系列规章制度的颁布有效遏制了学术不端行为的发生。自2011年后,我国的撤稿数量急剧降低,并维持在相对较低的水平,说明我国的科研道德建设方面取得了极大的进展,科研水平向上向好趋势明显。但是,生物领域及其与之密切相关的医疗和制药,社科方面的管理、经济领域等,依旧是撤稿高发的领域,在未来应予以充分关注。
参考文献
[1]任艳青,靳炜,翁彦琴.撤销论文呈现的学术不端行为新特征及启示[J].中国科技期刊研究,2019,30(12):1251-1258.
[2]王凤产.中国撤稿现状调查[J].中国科技期刊研究,2019,30(12):1360-1365.
[3]张春博,丁堃,王贤文,等.撤销论文对所在期刊的影响研究:基于期刊引证指标的定量分析[J].中国科技期刊研究.2020,31(3):337-345.
[4]魏刚.107篇论文撤稿的背后[J].科学新闻,2017,(5):58-63.
[5]张亘稼.科技期刊面对学术诚信危机[J].宝鸡文理学院学报(社会科学版),2012,32(4):101-104.
[6]包靖玲,潘旸,魏佩芳,等.国际医学学术期刊撤稿原因的调查分析:以Scopus数据库为例[J].编辑学报,2018,30(3):323-327.
[7]BOHANNON J.Who's afraid of peer review?[J].Science,2013,342(6154):60-65.
[8]曾建勋,苏静,陈兰杰.学术期刊诚信服务体系研究[J].编辑学报,2015,27(1):9-12.
[9]晁晓筠.科技学术期刊在学术诚信建设中的作用[J].编辑学报,2011,23(4):286-287.
[10]贾卫华.国内外期刊学术诚信保障体系的建设和应用[J].编辑之友,2013(5):39-41.
[11]周志新.基于CiteSpace的我国科技期刊出版伦理研究现状及趋势分析[J].科技与出版,2020(8):129-136.
[12]刘丽.学术期刊利用先进技术防范学术不端行为的思考[J].哈尔滨职业技术学院学报,2014(2):147-149.
[13]鲁晓峰,谢平.学术不端防范研究相关文献的综合评析[J].中国科技期刊研究,2017,28(6):498-503.
[14]申海菊.科技期刊编辑重构学术诚信的领导艺术[J].编辑学报,2015,27(2):116-118.
[15]闫娟,陆荣展,杨云华.国外学术诚信保障体系建设经验及对我国的启示[J].出版与印刷,2012(4):15-17.