【摘 要】[目的]总结和归纳国际出版集团推动数据开放共享和复用的政策、实践,以及推行FAIR原则的具体举措,以期为国内期刊提供参考。[方法]以Springer Nature、Taylor & Francis、Wiley以及Elsevier为案例,通过网络信息扫描、邮件沟通和直接交流等方式开展调研和信息采集。[结果]国际出版集团采用分层级的数据政策,便于更多期刊根据实际情况选择适合自己的政策。在实践层面,采取从小及大、由少到多、逐渐推行的相对缓和方式。在FAIR科学数据管理原则被越来越多机构接受时,出版机构在推进数据FAIR化方面也进行了初步尝试。[结论]出版机构在推进数据FAIR化方面仍然面临诸多挑战,这些挑战与数据存储基础设施对FAIR原则的支持能力密切相关。
【关键词】数据共享;数据复用;FAIR原则;FAIR化;数据出版
在数据密集型科研范式下,数据成为重要的研究对象和一级科研产出[1],被社会各界广泛关注。随着开放科学运动的发展,共享数据已成为开放科学运动的重点之一。学术期刊和出版商在推动科学数据开放和共享方面一直发挥着重要作用,他们通过制定和发布数据出版政策,倡导、鼓励、要求甚至强制作者提交数据,从实践上切实推动了科学数据的开放和共享。比较有代表性的例子有:2013年,Nature实施新的数据提交政策,要求作者提供数据和代码的可用性声明,并强烈推荐作者将数据提交到公共存储库[2];2014年,PLoS ONE 发布了新的开放数据政策,要求作者在提交论文的同时提交支持论文结论的数据[3]。现今,实施数据开放政策的期刊已越来越多。此外,数据论文、数据期刊也在近年发展迅速,最新统计显示全球数据期刊的数量已达到162种[4]。
随着越来越多的数据开放共享,围绕科学数据的数字生态尚不完善。一方面,科研人员不能有效获得已经发表的数据;另一方面,数据不能被已经成为科研助手的计算机和虚拟机自动理解和处理。因此,国际学术界在2014年提出了一套旨在同时为人类和机器克服数据发现与重用障碍的数据管理原则:可发现(Findable)、可获取(Accessible)、可互操作(Interoperable)、可重用(Reusable),简称FAIR原则(FAIR Principles)[5]。FAIR原则侧重于提升机器自动搜索与使用数据的能力, 以开放的结构化元数据和可互操作的机器可读数据格式推动数据重复利用。随着FAIR原则的推广,国际出版机构也在制定新的政策推进数据FAIR化。我国科技期刊界一直在为推动数据开放共享努力,一些期刊编辑部开始实施鼓励数据提交的政策,而一些与国外出版集团合作的期刊甚至制定了强制性数据提交政策[6]。在国际期刊出版集团进一步强化和实施数据共享政策,支持FAIR科学数据管理原则的背景下,本文调研了有代表性的国际期刊出版集团,总结了他们在推动数据开放共享和复用方面的政策、实践,以及推动数据FAIR化的具体举措,以期为国内期刊出版集团和编辑部推进数据开放共享和复用提供参考。
1 方法
以国际主流出版集团Springer Nature、Taylor & Francis、Wiley和Elsevier为案例,归纳这些出版集团的网站信息以及相关人员发表的论文,总结他们的数据开放共享政策、实践操作以及在支持数据管理的FAIR原则和数据FAIR化方面的措施。对于网站或论文中没有明确说明的信息,通过与出版集团人员电话沟通和当面交流的方式做了进一步补充和确认。论文成稿后请各出版集团的专家和同行们进行了修订、补充、完善和确认。需要指出的是,本研究提到的数据是指支持论文结果和结论的“最小数据集”。数据可用性声明(Data Availability Statement或Data Access Statement)旨在说明支持文章结果和结论的数据可以在哪里找到,包括在适用的情况下,在论文涉及的研究过程中分析或生成的公开存档的数据集的超链接[7]。数据引用是指在论文正文和参考文献列表中引用相关的数据集[8]。本次调研的关注对象为出版集团对数据公开共享的要求程度、数据可用性声明、数据审查规定、数据存储要求和数据引用要求。在实践方面,本研究关注各出版集团如何在其旗下的期刊中推进和施行这些政策,以及在支持FAIR数据管理原则方面采取了哪些举措。
2 结果
2.1 数据政策
在调研案例中,Springer Nature、Taylor & Francis、Wiley和Elsevier 都采用了分级的数据共享政策,本研究将不同层级的政策与数据共享程度、数据可用性声明、数据审查规定、数据存储要求和数据引用要求5个指标进行一一匹配并作具体解读(表1)。
表1 各出版集团的数据政策
出版集团 | 政策级别 | 数据共享程度 | 数据可用性声明 | 数据评审规定 | 数据存储要求 | 数据引用要求 |
Springer Nature | 1级 | 鼓励数据共享 | 不作强制性要求 | 不作强制性要求 | 鼓励数据存储,出版社有推荐和认证的列表,不作强制性要求 | 不作强制性要求,鼓励作者在参考文献中引用 |
2级 | 鼓励数据共享并提交数据共享的证据 | 鼓励提交 | 不作强制性要求 | 同上 | 同上 | |
3级 | 强烈鼓励数据共享 | 强制提交 | 鼓励评审 | 鼓励在公共存储库或文中存储数据 | 引用论文使用的公开数据,需要提供认证过的数据集标识符(可选择) | |
4级 | 强制数据共享 | 强制提交 | 强制评审 | 需要已验证的公共数据存储和数据集标识符(强制) | 对认证过的数据集引用有强制要求 | |
Taylor & Francis | 1级 | 鼓励数据共享 | 强烈建议作者提供数据可用性声明 | 可选 | 强烈建议作者将数据存储在公认存储库中 | 强烈建议作者引用数据 |
2级 | 作者根据诉求自行决定数据是否共享 | 强制性要求 | 可选 | 同上 | 同上 | |
3级 | 在明确重用条件的前提下,作者对公众开放数据 | 强制性要求,声明里应该包含数据重用条件 | 可选 | 作者必须将该数据存储在能为数据提供可解析的唯一ID的存储库中,并有数据长期保存计划 | 作者必须正确引用数据 | |
4级 | 数据要可发现,并充分可获取 | 强制性要求 | 可选 | 同上 | 同上 | |
5级 | 数据应该符合相关学科领域的标准,遵守FAIR原则 | 同上 | 可选 | 同上 | 同上 | |
Wiley | 1级 | 鼓励数据共享 | 不强制 | 不强制 | 不强制 | 不强制 |
2级 | 期待数据共享 | 强制 | 不强制 | 不强制 | 不强制 | |
3级 | 强制数据共享 | 强制 | 不强制 | 强制 | 强制 | |
4级 | 强制数据共享 | 强制 | 强制 | 强制 | 强制 | |
Elsevier | 1级 | 鼓励共享数据 | 不作要求 | 不作要求 | 鼓励 | 鼓励作者引用存储库中的数据 |
2级 | 如果不共享则鼓励作者说明原因 | 如果数据不共享,鼓励作者说明原因 | 不作要求 | 鼓励 | 鼓励作者在文中引用数据集及链接 | |
3级 | 要求作者或者共享数据,或者说明原因 | 如果数据不共享,要求作者说明原因 | 不作要求 | 强制 | 要求作者在文中引用数据集及链接 | |
4级 | 强制要求共享数据 | 强制数据必须共享 | 不作要求 | 强制 | 同上 | |
5级 | 同上 | 要求数据必须共享 | 要求评审 | 强制 | 同上 |
2.1.1 Springer Nature出版集团
按照从宽泛到严格的顺序,Springer Nature采取4级数据共享政策[9]。(1)1级政策:鼓励作者将数据存储到公共存储库,强烈推荐数据共享和数据引用,但对数据可用性声明不作要求。(2)2级政策:强烈建议数据共享并提供证据,高度鼓励作者确保他们的数据集或存放在公开可用的资料库中,或者在论文或其他支持文件中呈现;数据可用性声明是可选项;鼓励作者在参考文献中引用数据。(3)3级政策:对数据共享和可用性声明作强制性要求;数据引用要遵循Data Cite的最基本格式要求;要求评议人员对数据可用性声明进行同行评议,评议人员有权查看支持论文结论的原始数据(代码),引用数据提供数据集的持久标识符(如DOIs)。(4)4级政策:对5个指标都作强制性要求,数据集必须提交给经过认证的存储库并分配有效的标识符,除非为保护人类隐私或生物安全需要对数据访问进行合理控制,否则数据应不受限制共享,数据可用性声明、数据文件和数据本身都必须通过评审。2级政策和3级政策还区分为生命科学和非生命科学领域,主要是因为生命科学领域有严格的被领域群体广泛接受的专门数据存储库,如蛋白质序列必须存储在Uniprot中,DNA和RNA 序列必须存储在Genbank、DNA Data Bank of Japan (DDBJ)、EMBL Nucleotide Sequence Database (ENA)中。3级政策和4级政策都对数据可用性声明和数据引用作了强制性要求,4级政策尤其强调对数据集引用要做有效认证。
2.1.2 Taylor & Francis出版集团
Taylor & Francis的数据共享政策[10]包含5个级别,分别是:(1)基本政策,鼓励在不违反学术和个人隐私权的基础上共享数据;(2)在合理要求下共享,在作者自行判断请求是否合理的基础上决定数据是否可共享;(3)公开可用,在明确重用条件的前提下,作者对公众开放数据;(4)开放数据,在允许任何第三方合法重用的协议下,作者必须允许公众无偿获取数据,数据要可发现,并充分可获取;(5)开放而完全的FAIR原则,在允许任何第三方合法重用的协议下,作者必须允许公众无偿获取数据,此外,数据应该在相关的学科领域内符合FAIR标准。对于每个级别的政策,作者都被授权或鼓励就以下方面采取具体措施:提供数据可用性声明;引用数据集;提供持久性标识符;对数据集应用许可作明确说明。
2.1.3 Wiley出版集团
Wiley采取4级数据共享政策[11,12],分别是:(1)鼓励数据共享,对数据共享行为和声明都不作强制要求;(2)期待数据共享,不强制要求作者共享数据,但对可用性声明有强制要求;(3)强制数据共享,强制作者共享数据和发布可用性声明;(4)强制数据共享并评审数据,不但强制要求作者共享数据和发布可用性声明,而且对数据进行评议。在Wiley的4级政策里,只有1级政策不强制要求提交数据可用性声明,其他几个级别都规定必须提交。数据可用性声明将确认共享数据是否存在,保证共享数据的链接真实有效。
2.1.4 Elsevier出版集团
Elsevier的数据共享政策分为5个级别[13],分别是:(1)鼓励作者将数据存放在存储库中并在文章中引用;(2)鼓励作者将数据存放在存储库中,在文章中引用并链接到数据集,如果数据不能共享,作者需提供声明解释为什么不能共享数据;(3)要求作者将数据存放在存储库中,在文章中引用并链接到数据集,如果数据不能共享,作者需提供声明解释为什么不能共享数据;(4)强制要求作者将数据存放在存储库中,在文章中引用并链接到数据集;(5)数据必须经过同行评议。Elsevier数据政策的制定受到“数据马斯洛层次结构”总体思想的影响[14,15]。该政策在Elsevier内部制定,与开放科学中心建立的透明度和开放性促进(Transparency and Openness Promotion,TOP)准则一致。
2.2 实践
在调研案例中,不同出版集团推行数据政策的方法既有共性也有不同,概括起来,可分为如下几个方面。
2.2.1 面向不同期刊逐级推进数据共享政策
没有哪家出版集团从一开始就要求所有期刊都必须实行同样的数据共享政策,而是有步骤地逐步推动。Springer Nature鼓励其旗下期刊在标准的4级政策中进行选择,但在具体操作过程中不同期刊可根据实际情况进行微调。Taylor & Francis、Wiley和Elsevier出版集团都采用“数据共享政策强度迁移”的方法,鼓励期刊从制定“基本政策(即最宽泛的1级政策)”开始逐步增加共享强度要求,收到了良好的效果。例如:2018年11月Wiley旗下有1500多种期刊采用入门级的“鼓励数据共享(即1级)”政策,大约各有20种期刊采用“期待数据共享(2级)”政策和“强制数据共享(3级和4级)”政策,后者集中在进化生物学领域;而到了2019年4月,有90种期刊采用了“期待数据共享(2级)”政策,70多种期刊采用了“强制数据共享(3级和4级)”政策[12];2020年,Wiley旗下有544种期刊要求作者提交数据可用性声明(2级、3级和4级)。
2.2.2 与数据存储库合作
良好的数据共享实践离不开稳定运行的数据开放基础设施,本研究调研的出版集团都强烈推荐作者将数据提交到经过认证的数据存储库中进行保存。存储库应为数据集提供永久性唯一标识符(如DOI号),并制定数据长期保存计划。Springer Nature与通用存储库Figshare、Dryad和包含7个学科大类(生物科学、化学和化学生物学、地球、环境和空间科学、健康科学、材料学、物理学和社会科学)的众多数据存储库进行合作。Taylor & Francis和Wiley则并未提供推荐的数据存储库列表,而是鼓励作者使用 FAIRsharing 和re3data.org网站自行搜索适合的数据存储库。Elsevier集团自行开发了Mendeley数据平台和众多促进数据开放与共享的工具,用户可通过这些工具实现论文和数据之间的关联,如将数据集在存储库中的注册信息(DOI、数据可用性声明等)嵌入到编辑平台。
2.2.3 与期刊编辑协同工作
出版集团制定的政策最终都要落实到期刊上,能够及时反馈作者意见的期刊编辑是推动政策实施的重要力量。4个出版集团均要求其旗下期刊的编辑与研究人员就数据共享展开合作和探讨,参与到数据政策的制定中,甚至联合起来开发共享工具。以求在提高多学科数据透明度的指导思想下实行最适合的数据共享政策,推动更多期刊采用更严格的数据政策。此外,Springer Nature和Wiley都设立了专门的数据管理团队。Wiley推出了开放科学大使计划来推动数据共享,普及开放数据,并在“生命科学编辑峰会”中邀请开放获取期刊编辑进行开放科学圆桌讨论。2020年12月,Wiley联合国际地质科学联合会“深时数字地球” 国际大科学计划、Royal Meteorological Society和Geoscience Data Journal 举办了科学数据出版网络研讨会,为提高我国科学工作者对科学数据出版的认识,增进对科学数据出版工作的了解建言献策。Taylor & Francis与合作的学/协会就数据共享对编辑进行培训,建立核心小组。
2.2.4 提高科研人员的共享意识,塑造共享文化
作为数据的贡献者和所有者,研究人员是数据共享生态的重要环节。大规模地将数据共享作为规范需要研究文化和研究人员行为的改变,通过引入奖励机制来鼓励这种改变是一个行之有效的方法。Wiley对全球开展的数据共享动因的调查验证了这一说法。4600多名研究人员中39%的研究人员共享数据的原因在于提升研究的影响力和透明度,占比最高[12]。Wiley还为数据共享存在的问题提供了定量化、精细化的解决方案,以求消除研究人员对于数据被误解、误读的担忧。Taylor & Francis对采取不同共享政策的期刊采用了不同的徽章标识,并在网站的作者服务栏目中提供了如何共享、引用数据以及数据共享的好处等文件。Springer Nature对作者开展了培训活动,为作者提供在线帮助。
2.2.5 支持数据论文出版并创建数据期刊
在传统的学术期刊上开设数据论文或者创建新的数据期刊是近年来出版界推动数据共享的新举措[16]。Springer Nature是出版数据期刊最多的出版社,共计出版97种数据期刊,其中Scientific Data作为旗舰刊,具有非常广泛的影响,对后续其他数据期刊的创办起到了良好的借鉴作用。Elsevier出版了14种数据期刊,其中Data in Brief的出版体量十分庞大。Taylor & Francis和Wiley分别出版2种和1种数据期刊[4]。
2.3 支持FAIR原则的路径
FAIR原则对数据管理提出了较高的要求,本研究基于各出版集团最严格的政策和举措,探讨其践行FAIR各个原则的路径。
2.3.1 可发现(F)原则
可发现原则强调数据资源应易于被人类和计算机发现,尤其强调唯一标识符和元数据的重要性[17]。本次调研的出版集团都要求将数据存储在经过认证的数据中心,这些数据中心会为数据分配唯一标识符,从这个角度来看,各出版集团都至少满足了FAIR原则的最低(F1)要求,但绝大多数数据存储中心对元数据的要求较为宽泛,还达不到元数据要足够丰富的要求。
2.3.2 可获取(A)原则
可获取原则强调在尊重知识产权和授权与许可的前提下,数据资源可被人和机器获取[17]。出版集团通过要求作者在文章中提供数据可用性声明,说明数据存储在何处、数据链接,以及数据可访问和可获取的条件。但这种在文章中提供的声明目前还主要以科研人员为服务对象。要达到可获取原则的要求,不仅要面向人类和计算机的数据资源检索协议清晰明确,还要为元数据建立长期保存政策、机器可操作性模板和框架。
2.3.3 可互操作(I)原则
可互操作原则是FAIR原则的核心原则,要求所有资源都具有语义明确性,以便机器对数据、服务和技术进行整合,这就要求数据和元数据都使用机器可理解的语言进行表示,并使用遵循FAIR原则的词表[17]。各出版集团都鼓励甚至强制要求作者对特定的数据使用专用存储库,但在实践层面,只有少数领域的数据存储库得到了领域群体公认。
2.3.4 可重用(R)原则
可重用原则强调数据应在定义良好的条件下被人类和机器重用,这同样对元数据的丰富性(尤其是溯源信息)提出了严格要求[17]。数据论文要求作者对所描述的数据提供详细的来源和产生背景等信息,可以在一定程度上认为提供了丰富的元数据,但如果不做二次加工和处理,论文的文本内容目前还只能支持人类阅读和理解。
3 讨论与分析
通过比较,发现各出版集团都在实施分层级的数据政策,以推动更多期刊制定和实施数据政策,促进数据开放共享和重复利用。各出版集团的政策都包括数据是否公开共享、提交数据可用性声明的规定、数据存储、是否开展数据评审,以及数据引用的要求。期刊的任何政策都会对投稿作者有影响,即使作者以前没有开放共享数据的意识,在向期刊投稿的过程中,也会开始对数据开放共享有意识,因此期刊的政策为推动更多作者提高数据共享意识有正向的促进作用。Springer Nature于2019年对2000多名中国研究人员进行调研时发现,研究人员不进行数据共享的首要原因是期刊没有相关要求。事实上,期刊/出版机构的要求排在共享数据激励因素的前3位[18]。为了支持数据FAIR化,Elsevier将数据政策向越来越支持FAIR的方向完善,重新调整作者提供的数据可用性声明,使其描述如何访问和重用数据,而不是为什么不能共享数据。
出版集团推荐通用的数据存储库和领域专门存储库,推动研究人员将数据存放在可信的存储数据库。数据集中存储,便于将来数据的可发现、可获取、可互交互和可重用。相较于通用的机构知识存储库,专业领域数据存储库可能更有利于数据FAIR化,这是因为专业数据库更有利于领域元数据标准的使用。
Springer Nature、Wiley和Elsevier都规定了数据审查的内容,在这方面,传统期刊和数据期刊有所不同。对于传统期刊,数据政策的重点集中在数据提交、存储和开放共享上。而对于数据期刊,数据质量如何控制、如何对数据集进行评审是独特于传统期刊的工作流程,也是数据期刊出版过程中至关重要的一环。
Springer Nature支持FAIR原则的做法具有代表性。很多期刊编辑也许没有意识到,他们制定的数据政策会帮助数据的开放共享,比如要求将数据集存储在数据存储库中,而不是以电子文档或者是文章附属文件的形式存放在期刊平台或者机构知识库里,将会增加数据集被发现的概率,从而提高数据集被利用、被引用的可能性。从Springer Nature所做的调查[19]可以发现,研究人员对FAIR数据管理原则认知非常有限,只有18%的人员熟悉FAIR原则,从未听说过FAIR原则人员比例高达54.3%。可见,期刊出版界在推动数据FAIR化的过程中,还有很多宣传推广工作要做。
4 结语
本研究调研了国际主流出版集团在推动数据公开共享和复用以及支持FAIR原则的政策及实践。研究发现,国际出版集团采用分层级的数据政策,便于更多期刊根据实际情况选择适合自己的政策。在实践层面,采取从小及大、由少到多、逐渐推行的相对缓和方式。在FAIR科学数据管理原则被越来越多机构接受时,出版机构在推进数据FAIR化方面也进行了初步尝试,但仍然面临诸多挑战,这些挑战与如何在实践层面实施FAIR原则密切相关,尤其与数据存储库支持FAIR原则的能力有关。相信随着推行数据FAIR化的社区和实践不断增多,相关的技术、方法和工具也会越来越多地涌现出来,这会为出版机构推行数据FAIR化带来更多可供选择的方案。
参考文献
[1]STM Tech Trends:Outlook 2020[EB/OL]. [2020-11-05]. https://www.stm-assoc.org/2016_04_11_STM_Tech_Trends_Outlook_2020.pdf.
[2]Vasilevsky N A, Minnier J, Haendel M A, et al. Reproducible and reusable research: Are journal data sharing policies meeting the mark?[J]. PeerJ, 2017,5:e3208.
[3]吴蓉, 顾立平, 刘晶晶. 国外学术期刊数据政策的调研与分析[J]. 图书情报工作, 2015,59(7):99-105.
[4]刘凤红, 彭琳. 国际数据期刊的发展现状调查与分析[J]. 中国科技期刊研究, 2019,30(11):1129-1134.
[5]Wilkinson M D, Dumontier M, Aalbersberg I J, et al. Addendum:The FAIR Guiding Principles for scientific data management and stewardship[J]. Scientific Data, 2019,6:6.
[6]彭琳, 韩燕丽. 我国科技期刊数据政策分析及启示:以中国科学院主办英文期刊为例[J]. 中国科技期刊研究, 2019,30(8):870-877.
[7]Data availability statement[EB/OL]. [2020-11-05]. https://www.springernature.com/gp/authors/research-data-policy/data-availability-statements/12330880.
[8]Data cite[EB/OL]. [2020-11-05]. https://datacite.org.
[9]Research data policy type[EB/OL]. [2020-11-05]. https://www.springernature.com/gp/authors/research-data-policy/research-data-policy-types.
[10]Taylor & Francis What is research data?[EB/OL]. [2020-11-05]. https://authorservices.taylorandfrancis.com/data-sharing-policies/.
[11]Wiley's data sharing service[EB/OL]. [2020-11-05]. https://authorservices.wiley.com/author-resources/Journal-Authors/licensing-and-open-access/open-access/data-sharing.html.
[12]Wu Y, Moylan E, Inman H, et al. Paving the way to open data[J]. Data Intelligence, 2019,1(4):368-380.
[13]Elsevier. Research data[EB/OL]. [2020-11-05]. https://www.elsevier.com/about/policies/research-data.
[14]de Waard A. The Mendeley Data management platform:Research data management from a publisher's perspective[EB/OL]. [2020-11-05]. https://www.elsevier.com/__data/assets/pdf_file/0005/504563/08212017144742_deWaard082117.pdf.
[15]Descoteaux D, Farinelli C Silva M S E, et al. Playing well on the data FAIRground:Initiatives and infrastructure in research data management[J]. Data Intelligence, 2019,1(4):350-367.
[16]张恬, 刘凤红. 数据出版新进展[J]. 中国科技期刊研究, 2018,29(5):453-459.
[17]Jacobsen A, de Azevedo R M, Juty N, et al. FAIR principles:Interpretations and implementation considerations[J]. Data Intelligence, 2020,2(1/2):10-29.
[18]数据分享在中国的挑战和机会[EB/OL]. [2020-11-05]. http://www.naturechina.com/public/upload/pdf/2019/02/13/5c63ea529f634.pdf.
[19]The State of Open Data 2019 survey[EB/OL]. [2020-11-05]. https://doi.org/10.6084/m9.figshare.9980783.v2.