【摘 要】科学的发现依赖于可靠的研究数据,期刊数据政策的制定对科学研究可重复性的提高有重要的促进作用。本研究采用网络调研的方式对国际和国内学术出版机构与部分高质量期刊的数据政策进行调研,从数据提交、数据评审、数据开放与存储、数据保护四个方面归纳,得出相关结论:国际大型出版机构积极鼓励作者提交数据,少数顶尖期刊要求必须提交数据,并且严格把控数据的质量和可用性,积极倡导作者共享数据,特别是鼓励使用公共存储库;国际期刊严格遵守相关法律和行业准则,但数据版权归属问题仍有待规范;国内期刊数据政策发展刚刚起步,相关要求与说明还不成体系。
【关键词】数据出版;数据提交;数据评审;数据存储;数据保护
1 引言
科学发现是建立在可靠的研究数据之上的,为提高科学研究的可靠性以及更高效地利用已获得的科学数据,一些政府机构和科研资助机构开始重视科学数据的管理工作。美国国家科学基金会规定,从2011年1月起,申请者都需要提交一份数据管理计划[1]。2018年3月,我国国务院办公厅发布《科学数据管理办法》,对数据的采集汇交与保存、共享、保密与安全进行规范,旨在进一步加强和规范科学数据管理,保障科学数据安全,提高开放共享水平[2]。学术期刊对科学研究产出论文有重要的评审作用,我国学术期刊有必要在数据出版过程中对数据的提交、存储、使用进行规范,对现有的期刊数据政策实践进行梳理,总结共同的发展趋势,提炼有价值的经验,为我国的学术出版机构制定和完善数据政策、提高期刊的学术出版水平以及数据开放水平提供借鉴。
本文调研总结国际国内学术期刊数据政策发展特点与概况,并进行对比分析,认为国内期刊数据政策发展还不足,应借助国际期刊优秀的实践经验,为国内期刊数据政策规范的建立提供参考。本文将主要调研国内部分顶级期刊和国际重要学术出版机构学术期刊的数据政策情况。其中,国内的顶级期刊将选择中信所发布的2019年度中国百种杰出学术期刊与入选中国科技期刊卓越行动计划的22种领军期刊。这122种期刊属于不同的学科领域,能够代表国内各个学科领域期刊的最高水平。国外研究对象主要选择四家大型出版机构Springer Nature、Elsevier、Taylor & Francis、John Wiley。这四家出版机构期刊规模庞大,期刊总量均达到2000种以上。此外,重点调研学术界四种知名期刊Science、Nature、Cell、PNAS。本研究利用网络调研的方式,通过调研期刊与出版机构官网中的相关信息,搜集整理期刊与出版机构对数据的相关说明,调研截至2020年12月20日。
2 学术期刊数据政策的概念
目前期刊数据政策的制定还没有统一的标准,但出版界、学术界、资助机构等共同努力探索,已经得到了一些研究成果,科学数据出版规范的内容也逐渐清晰和完善。2012年,英国联合信息系统委员会资助的“期刊研究数据”项目(The Journal Research Data)调研了371种学术期刊,访谈了出版行业、资助机构、学术界等人员,最终提出了一个期刊数据政策框架模型[3]。2014年,FAIRport会议提出可查找性、可访问性、互操作性和可再用性(findable,accessible,interoperable and reusable,FAIR)的数据出版指导原则[4],之后Wiley、Taylor & Francis等多家出版机构表示遵循FAIR原则。国际医学期刊编辑委员会(ICMJE)规定,截至2019年1月1日或之后开始注册的临床试验,必须在试验注册中包括相应的数据共享计划[5]。各大出版商和学术期刊已经制定了比较完善的期刊数据政策,对数据的提交、审查、使用进行规范,包括:(1)数据提交的要求强度、数据格式、数据提交方式;(2)数据评审;(3)数据的可用性、数据所涉及的隐私与伦理问题、数据引用以及数据的开放共享。在本研究中,所探讨的期刊数据政策是指期刊和期刊所属出版机构对数据的提交、数据存储、数据共享等方面进行说明和管理的政策,从而促进数据的开放共享与可重用性[6-7]。
3 国际学术期刊数据政策发展特点
3.1 在数据提交方面,国际大型出版机构积极鼓励提交数据,已有期刊强制要求提交数据
研究数据的提交是实现数据共享的第一步。各大期刊和出版社都致力于推动数据的共享发展,都要求作者在投稿时提交必要的数据,以支撑研究结论,帮助编辑和同行评审人员对提交的作品进行评估,便于其他研究人员理解文章、使用数据。表1列出了国际出版机构和期刊对数据提交的态度,显示,四家出版机构对数据的提交大多是持鼓励态度,个别期刊要求必须提交原始数据。例如,Scientific Data、Geoscience Data Journal等期刊要求必须提交支撑论文的数据材料;Nature、Science和PNAS要求作者在论文出版时,必须公开提供数据和材料,所有数据、材料和代码要符合期刊的透明度和可重复性标准;Cell要求作者存档与论文相关的所有未处理的数据,编辑可能会要求提供未经处理的原始数据,对于某些大型数据集(如基因测序、微阵列),在提交后需要提供给编辑和评审人,并强烈建议作者将原始数据上传到像UniProt或GEO这样的数据存储库。
表1 国外出版机构/期刊数据提交要求强度
期刊 | 数据提交要求强度 | 出版机构 | 数据提交要求强度 |
Nature | 强制 | Springer Nature | 鼓励(个别期刊强制) |
Science | 强制 | Elsevier | 鼓励(个别期刊强制) |
PNAS | 强制 | Wiley | 鼓励(个别期刊强制) |
Cell | 部分强制 | Taylor & Francis | 鼓励(个别期刊强制) |
3.2 在数据评审方面,国际大型出版机构严格把控数据的质量和可用性
国际学术期刊非常重视提交数据的质量和可用性,要求作者在提交数据时保证数据真实可靠,并提交数据可用性声明,披露数据的任何限制以及数据是否可用、数据获取方法等,并在数据提交后对数据的质量和可用性进行评审。
研究数据的真实性是对科学研究工作者的基本学术道德要求,也是对科学研究可验证性的保障。对于这点,国际四家出版机构都要求作者在提交论文时确认数据要真实呈现,尤其是对图像的处理应该最小化,不允许对电子图像进行部分的效果增强或伪造。Nature要求与手稿一起提交的电子图像应进行最少的处理,一定程度的图像处理是可以接受的,但最终图像必须正确地表示原始数据,并符合学科领域的标准。Wiley和PNAS表示,如果提交的数据存在伪造或未经证实的错误,文章可能会被撤稿。
数据可用性声明(Data Availability Statement,DAS),是用来描述与论文相关联的数据集或代码的可用性,包括未公开获得访问的数据集或代码。有研究表明,在发表的文章中包含具有持久数据链接的数据可用性声明,将有助于数据的可查找、可获得、可重复[8]。Nature在2016年引入强制性DAS的政策,要求所有关于原始研究的手稿必须包括一份数据可用性声明。Cell、Wiley、Springer Nature、Taylor Francis这几家期刊/出版社,在官网中也都要求作者提供数据可用性声明。
为保证数据的质量和可用性,出版社需要对作者提交的数据进行评审。根据国外四家出版机构和四种期刊官网中对数据评审的描述,可以总结出目前国际期刊对数据评审涉及的内容主要分为两类。一是评审数据的质量。Springer Nature将对方法的有效性、数据的质量、数据解释是否可靠有效进行评估。Science要求补充材料需要进行与印刷出版物相同的同行评审程序。PNAS非常重视数据和图表的问题,将对相关内容进行评估,并可能要求作者提供关于数据、实验或图表编制方式的解释。二是评审数据的可用性,数据可用性被认为是评估重复性和验证性研究的一个必要组成部分[9]。Taylor Francis表示,同行评审员和编辑将审议手稿的数据可用性陈述,以及作者是否遵守了期刊的数据共享政策。Wiley在官网中声明,链接数据的质量和可复制性要经过同行评审(可选)。Springer Nature要求审稿人确认论文中数据和方法的报告要足够详细和透明,以便能够复制研究结果。Elsevier将建立数据评审实践,以确保已发布的数据有效,并能够重复使用。
3.3 在数据共享方面,国际期刊积极倡导作者共享数据,特别鼓励通过公共存储库的方式
研究数据的共享对于科学研究的发展有重要的推进作用。研究者可能会花费大量的时间、精力和成本,试图从头开始生成其他人的研究结果。当数据或代码被公开时,研究者可以节省这些工作,使得其他研究人员更容易重用和重新解释数据,可以避免重复实验,获得新的见解。对于分享自己研究数据的作者来说,数据的共享可能会提高论文被引用的机会[10]。本次调研的国外出版机构和学术期刊整体上多强烈鼓励数据共享,四家期刊的要求更加严格,Cell、Science、PNAS要求作者从论文出版之日起,相关数据集必须免费提供给读者。Nature在官网中声明,作者论文出版必须将材料、数据、代码和相关协议快速提供给读者,这一要求是论文出版的前提条件。
研究数据不断朝着数据可访问、可发现、可重复的方向发展,数据应以最大限度地重复使用的形式进行存放。将原始数据上传到适当的数据存储库将成为数据提交的主流要求。根据调研可以总结,论文出版时相关数据材料的提交方式可分为两种类型:(1)作为补充信息(Supplement Information,SI)。这是一种常用的数据提交方式,用于提交那些能够直接支持论文主要结论、但由于篇幅或文件格式限制而不能包含在论文中的数据和其他材料。(2)将数据上传至公用数据仓储库。这些调研对象都在官网中明确说明作者在选择数据库时要优先选择学科领域公认的可公开查阅的专用数据库,在没有合适的学科领域数据库可用的情况下,也可以提交给通用的存储库(如Figshare、Dryad)。Springer Nature声明,在提交数据时首选公共存储库。与通过补充文件共享数据相比,数据存储库使数据更容易被访问和发现,并且可以进行搜索,有利于数据的长期保存;存储库通常还提供结构化和识别数据的标准化方法,并支持特定研究领域的标准[11];出版机构与期刊既可省去管理数据、建立平台的时间、人力和物力,也可使得数据的公开获取更加便利。
3.4 在数据保护方面,国际期刊严格遵守相关法律和行业标准,但数据版权归属仍然有待规范
国际期刊在极力倡导数据开放共享的同时,也非常注重研究数据涉及的人权与动物保护问题,要求作者遵守相关法律规定与伦理规范,但数据版权归属问题仍需要进一步规范。
作者论文相关的实验数据可能会涉及实验参与者的隐私以及人类、动物研究的伦理问题,因此,国外出版机构均要求作者在提交论文手稿时确保:手稿中涉及的所有实验遵守相关法律和机构的标准指南,并且已获得相应机构或国家研究伦理委员会的批准。例如对于涉及人类受试者的实验,Springer、Elsevier、Taylor & Francis、John Wiley以及PNAS均提到,作者所做的实验工作必须按照《赫尔辛基宣言》所述的原则进行。各个出版机构或期刊要求投稿中必须包含一份声明,以说明该研究已获得受试者的知情同意,并获得相关机构和(或)国家研究伦理委员会的批准。
期刊对数据引用的规范也是对数据保护的内容。数据引用有助于公众认识到数据价值,有助于确保研究人员获得分享数据的荣誉,可以帮助作者识别和查找数据、促进数据可重复性,帮助其他研究人员复制和验证研究成果,帮助追踪数据集的影响力和重用数据集。调研对象均鼓励数据引用实践。Cell强调稿件中使用的所有数据集、程序代码和方法都必须在文本中适当引用,并在参考文献部分列出。Elsevier、Cell、Science强调在数据引用时最好使用DOI或其他永久标识符。Taylor & Francis要求在进行数据引用时,一定要包含以下四项元素:作者、数据集标识、电子检索位置(使用永久标识符)、出版位置(通常为作者存放数据集的存储库)。Springer Nature、Wiley、PNAS等都给出具体数据引用语句范例,作者需要在数据引用中包含数据集标识([dataset])、出版时间、标题、数据仓库名称、永久标识符(例如DOI)等元素。
期刊数据保护方面也存在一些问题,比如国际期刊数据政策中很少有专门针对数据的版权声明和使用许可协议。只有Springer Nature在官网中提到期刊中发布的补充信息文件(附加文件)都可以在网上免费获得,Springer Nature不主张数据集的知识产权[11]。
4 国内学术期刊数据政策概况
本研究选择的122种中国期刊中,英文期刊22种、中文期刊100种,其中约60%的期刊有相关的数据出版规范说明,但期刊的数据出版规范不明确且单一。在数据提交方面,大多数期刊未说明对数据提交的态度,期刊的要求各有不同,有6种期刊说明部分数据必须要提交,例如,《环境科学》要求凡涉及测定DNA、RNA或蛋白质序列的论文,可将序列提交到国家微生物科学数据中心NMDC;还有10种期刊明确表示强烈鼓励作者提交数据。
对于数据评审,与Nature集团合作出版的6种英文期刊要求对补充材料进行同行评审。另外有7种英文期刊有对数据可用性声明相关的要求,而中文期刊对数据可用的要求较少。
在数据开放共享方面,比较有代表性的是中华医学会的20种期刊以及《中国组织工程研究》,均满足国际医学期刊编辑委员会要求的数据共享声明。对于数据发布的方式,英文期刊一般均支持通过补充信息和公共存储库这两种方式发布数据,而中文期刊更偏向于以补充信息的方式发布。
最后,国内期刊对数据引用的规范比较模糊,部分中文期刊仅强调引用或参考他人的数据需在文中明确标引,与Springer Nature合作出版的期刊则在官网列出了具体的数据引用语句。国内期刊对数据归属问题没有统一的规范,有将近三分之一的期刊要求涉及人类与动物实验遵守相关法律和伦理规范。
表2 122种中国期刊数据政策要求情况统计
数据政策 | 中文期刊 | 英文期刊 | 合计 |
支持补充信息 | 6 | 16 | 22 |
支持公共存储库 | 3 | 14 | 17 |
数据评审 | 0 | 6 | 6 |
数据可用性声明 | 0 | 7 | 7 |
数据共享 | 20 | 10 | 30 |
数据引用 | 10 | 8 | 18 |
5 国际与国内期刊数据政策对比与建议
根据国际国内出版机构与学术期刊的数据政策看,国际上大部分期刊已经意识到数据政策的重要性,开始探索、制定期刊数据政策,例如Springer Nature官网中罗列的1721种期刊都制定了数据政策[11],而国内有数据政策的期刊较少,并且要求单一、不明确。有研究表明大型出版商更有能力适应瞬息万变的学术交流环境,更有可能制定数据管理方面的政策。[12]国内数据管理与共享的发展起步较晚,目前国家已经开始重视数据管理工作,逐渐取得研究进展,例如2021年1月中国科学院计算机网络信息中心正式发布的“科学数据银行”,能够提供论文关联数据的存储和出版服务,是促进科学数据规范出版、进一步提高国内开放共享水平的重大举措。在数据管理方面,国内英文期刊大多与Elsevier、Wiley等国际出版机构合作出版,要比中文期刊发展得更快。
目前国内只有少数期刊采取将数据提交至公共存储库的要求,这说明我国期刊刚有将数据提交至数据库的意识。与国际期刊不同的是,国内期刊还会响应国家号召,提倡将特定类型的数据提交至我们国家的数据中心。国内期刊,尤其是中文期刊对数据可用性这一方面重视度较低。数据可用性声明实际上就是告诉读者支撑论文结论的数据在哪、如何访问,可以提高数据的可获得性与透明性。此外,数据版权规范仍然是一个比较复杂的问题,无论是国际还是国内,对这方面的声明都不太明确。总之,为我国更好地规范数据出版、提高期刊质量,本文提出以下建议。
(1)国家需要加强对数据权益保护的法律建设。一方面要保护数据相关者如患者的个人隐私,另一方面是要保护提交、分享数据的科研人员的知识产权,需要在知识产权保护和倡导开放共享之间探索平衡点,使得数据拥有者对提交、分享数据无“后顾之忧”。
(2)我国仍需要大力支持国家数据中心与机构知识库的建立,从而更好地保障数据存储、数据交流无障碍。期刊应积极主动与数据存储库进行合作,更加快速、便利地存储和发布数据。
(3)国内期刊应积极遵循国家发布的《科学数据管理办法》,尽快加入到共同促进数据共享的大环境中。期刊应该主动承担起引导研究人员规范提交数据、开放共享数据的责任;最好提供给作者较规范的数据提交、数据引用的说明,告知作者上传数据的存储库网址、上传数据的详细步骤等。同时,要声明数据可用性,保证数据可用,并对提交的数据进行严格评审,保证数据可靠。
6 讨论
在大数据时代,数据成为科学研究的新范式。科学数据在科学研究中的地位越来越重要,它不仅是科研成果的重要支撑材料,也是科研活动的重要产出。近些年来,学术造假事件不断发生,编造数据、伪造图像等问题成为期刊论文撤稿的一大原因,这也使得研究数据的可用性及可重复性问题越来越受到关注。期刊数据政策有助于提高数据的可重复性、可用性、透明性,使研究过程更加可靠、高效。国际出版机构以提高科学研究的可重复性为宗旨,主要从数据提交、数据评审、数据保护、数据共享四个方面进行规范。但数据的版权归属仍然是个复杂的问题,是阻碍科学研究者进行数据提交与共享的原因之一,因此要继续积极推进数据引用实践,承认共享数据的研究人员的贡献,保护研究人员的相关权益。
目前国际上学术期刊数据政策发展水平参差不齐,国际大型学术出版机构对出版数据的规范已有了明确要求,我国学术期刊界在出版数据规范方面的研究刚刚起步,需要重视期刊的数据提交与共享政策。国家和政府部门应当充分发挥引导作用,提高研究人员的数据共享意识,学术期刊可以根据期刊的具体发展情况和学术领域的要求积极探索数据政策,在提高科学数据可用、科学研究可靠的过程中发挥积极作用。
参考文献
[1]NSF.Chapter II-Proposal Preparation Instructions[EB/OL].[2021-02-09]..
[2]国务院办公厅.国务院办公厅关于印发科学数据管理办法的通知[EB/OL].(2018-04-02)[2021-01-01]..
[3]STURGES P,BAMKIN M,ANDERS J H S,et al.Research data sharing:Developing a stakeholder‐driven model for journal policies[J].Journal of the Association for Information Science and Technology,2015,66(12):2445-2455.
[4]Data FAIRport.What is Data FAIRport initiative?[EB/OL].[2021-02-17]..
[5]ICMJE.Clinical Trials[EB/OL].[2021-02-17]..
[6]叶文生.基于期刊科研数据政策的生物医学科研数据服务研究[D].武汉:武汉大学,2017:21.
[7]卫军朝,宋婧婷.学术期刊与科学数据仓储关联研究:兼论图书馆科学文献与科学数据关联的途径[J].图书与情报,2018(1):126-133.
[8]VINES T H,ANDREW R L,BOCK D G,et al.Mandated data archiving greatly improves access to research data[J].The FASEB Journal,2013,27(4):1304-1308.
[9]COLLINS F S,TABAK L A.Policy:NIH plans to enhance reproducibility[J].Nature,2014,505(7485):612-613.
[10]Elsevier.Sharing research data[EB/OL].[2020-12-26]..
[11]Springer Nature. Research data policies[EB/OL].[2020-12-26]..
[12]BORREGO á,GARCIA F.Provision of supplementary materials in library and information science scholarly journals[J].Aslib Proceedings,2013,65(5):503-514.