【作 者】刘灿、任胜利:国家自然科学基金委员会科学基金杂志社;王玲:北京市未来芯片技术高精尖创新中心
【摘 要】以近年来迅速发展的数据期刊为研究对象,通过统计和分析国内外代表性数据期刊的特征、载文量、引证指标等,探讨其学术影响力及发展前景。通过综述国内外数据出版的政策,试图为探究我国数据期刊发展的途径和措施提供依据。
科学研究数据应该公开分享已被科学界广泛认可,实际上,科研人员也越来越多地引用数据库中的数据集,例如,基于ScoPus文献列表和Databib数据库的统计显示,从1996年到2013年数据库被引用次数的年均增幅为19%。随着人们对研究数据的发现和再利用的兴趣增加,数据集以某种带有质量控制和归属性的形式出版也日益显得必要,数据发表和数据期刊也应运而生。本文通过对代表性数据期刊的学科属性、出版方式、载文量演变、引证指标等进行统计和分析,全面梳理目前数据期刊的学术影响力和发展趋势,并对国内外数据期刊出版政策进行调研,以期为我国数据期刊发展的途径和措施提供参考。
1、数据论文与数据期刊的缘起
数据是科研成果重要的支撑材料,从长远来看,数据的价值甚至可能更高于其所产生的科研成果。科研人员越来越希望拥有访问基于期刊文章结果数据的权限,以对数据进行个人探索并大规模挖掘,正因为如此,数据共享已经成为科研过程中利益相关者关注的焦点。早在2003年发布的《柏林宣言》中就已经明确将科研数据作为学术知识的一部分;2012年英国皇家学会也认为“未来真正能够被利用的科学数据是以智能化开放数据为表现形式”,同时“敦促科研人员应该在合适的数据知识库里存储数据,让人使用和验证数据”;2017年7月,欧盟“地平线2020”计划要求所发表的研究论文必须开放出版或在出版后存储到开放知识库。由此可见,科研数据的开放共享已经成为一种新兴的学术要求和趋势。
在全球“数据共享与再利用”的大背景下,科研数据的存储与管理显得日益重要,对科研数据的传播方式主要分为以下3种:1)数据发布(遵循版权协议的前提下将数据发布在网络或其他媒介上);2)数据资料(以论文附件形式或将论文相关数据存储在数据知识库中);3)数据论文(以正式的期刊论文形式对实验和观察数据集进行描述)。随着数据出版的发展,国际上有很多期刊都制订了“科学数据共享政策”,数据期刊也应运而生。
数据论文是正式的学术论文,遵从学术发表规范,接受严格的同行评议。数据论文与常规学术论文有很大不同:数据不是支持学术观点的辅助性材料,而是论文主体,它并不重点报道基于科学假设和科学问题的研究结果,而是重点描述科学数据本身;发表的是可被检索的元数据文件,用以描述单个或一组可在线访问的数据集,其内容主要是对数据采集、获取、处理等过程和方法的描述,不涉及对数据和研究结果的推论、发现以及假设论证,目的是让科研群体更好地发现、获取、理解、复用数据,并再次进行科研创新。
数据期刊指那些致力于发表数据论文的期刊,其重在描述实验和观察数据,并有效整合传统学术论文的内容和结构,力求在最大程度上促进数据重用,帮助用户进行检索和数据挖掘。数据期刊大致分为2种:一种是混合性数据期刊,出版数据论文的同时,也出版综述、研究论文、会议报告等类型的文章;另一种是纯粹数据期刊,其出版单元全部为数据论文。
2、代表性数据期刊的特征分析
本文根据上述数据论文以及数据期刊的概念,对目前国内外已经开展数据出版的期刊进行调研,据不完全统计共有26种数据期刊符合上述特征(表1)。发表描述软件以及其科学影响的软件论文,刊发实验过程中开发和使用的方法、材料的材料和方法论文的期刊,以及自创刊至今发表数据论文的数量小于5篇的混合性期刊均不作为本研究的重点对象。
表1 国内外主要数据期刊的基本信息
期刊名称 | 学科领域 | 创刊年份 | 出版商 | 出版周期 | 论文APC(2017年) | 发文量# | 影响因子/排名 |
Ecology^ | 环境与生态学 | 1999 | Ecological Society of America(ESA) | 月刊 | $250 | 136 | 4.89/4 |
BMC Plant Biology^ | 植物科学 | 2001 | Biomed Central | 月刊 | $2,145 | 40 | 3.964/6 |
Human Genomies^ | 基因遗传学 | 2003 | Biomed Central | 随时发表 | $2,450 | 16 | 3.327/7 |
BMC Research Notes | 医学、生物化学、遗传与分子生物学 | 2008 | Biomed Central | 月刊 | $1,290 | 46 | -- |
ZooKeys^ | 动物学 | 2008 | Pensoft | 随时发表 | $615 | 59 | 1.031/10 |
Earth System Science Data*^ | 地球科学、气象与大气科学 | 2009 | Copernicus | 年刊 | 免费 | 199 | 6.696/2 |
International Journal of Rohotics Researc^ | 信息科学、机器人科学 | 2009 | SAGE | 每月1-2期 | $3,000 | 15 | 5.301/3 |
PhytoKeys^ | 植物科学 | 2010 | Pensoft | 随时发表 | $615 | 15 | 1.116/9 |
GigaScience*^ | 生物学、医学 | 2012 | Biomed Central/Oxford University | 随时发表 | $1,025 | 210 | 6.871/1 |
F1000 Research | 综合性 | 2012 | F1000 Researech | 随时发表 | $150-1000 | 37 | -- |
Journal of Open Archaeology Data* | 考古学 | 2012 | Uhiquity | 随时发表 | $127 | 22 | -- |
Genomics Data | 基因和遗传学 | 2013 | Elsevier | 每年1-4期 | $500 | 592 | -- |
Open Health Data* | 医学 | 2013 | Uhiquity | 随时发表 | $127 | 21 | -- |
Journal of Open Psychology Data* | 心理学 | 2013 | Uhiquity | 随时发表 | $127 | 23 | -- |
Journal of Open Research Software | 信息科学、计算机软件 | 2013 | Uhiquity | 随时发表 | $127 | 117 | -- |
Biodiversity Data Journal | 农学与生物科学 | 2013 | Pensoft | 随时发表 | $335 | 63 | -- |
Dataset Papers in Science* | 综合性 | 2013 | Hindawi | 随时发表 | $500 | 57 | -- |
Geoscience Data Journal*^ | 地球科学、气象与大气科学 | 2014 | Wiley-Blackwell | 月刊 | $1,500 | 32 | 2.8/8 |
全球变化科学研究数据注册与出版系统* | 地球科学 | 2014 | 中国科学院地理科学与资源研究所 | 随时发表 | 免费 | 311 | -- |
scientific Data*^ | 综合性 | 2014 | Springer-Nature | 随时发表 | $1,350 | 308 | 4.836/5 |
Data in Brief* | 综合性 | 2014 | Elsevier | 季刊 | $500 | 1553 | -- |
Journal of Open Humanities Data* | 艺术与人文科学 | 2015 | Uhiquity | 随时发表 | $127 | 5 | -- |
中国科学数据 | 综合性 | 2016 | 中国科学院计算机网络信息中心 | 季刊 | $439 | 60 | -- |
Chemical Data Colleetions* | 化学 | 2016 | Elsevier | 月刊 | $500 | 56 | -- |
Data* | 综合性 | 2016 | Multidisciplinary Digital Puhlishin Institute | 季刊 | 免费 | 26 | -- |
全球变化数据学报 | 地球科学 | 2017 | 中国科学院地理科学与资源研究所 | 季刊 | 免费 | 16 | -- |
由表1可见,按照Weh of Science(WoS)对期刊学科领域的分类,调研的26种数据期刊涵盖了生命科学与生物医学(10种)、综合性(6种)、自然科学(地球科学、化学等5种)、应用科学(信息科学、计算机软件2种)、艺术与人文科学(1种)、社会科学(2种)等多个研究领域。从学科分布来看,包含多个学科的综合性期刊占比最高,有6种(23.08%),包括《Fl000 Research》《Dataset Papers in Science》《Scientific Data》《Data in Brief》《中国科学数据》《Data》。地球科学、气象与大气科学的数据期刊数量排名第2位,有4种(15.38%),包括《Earth System Science Data》《Geoscience Data Journal》《全球变化科学研究数据注册与出版系统》《全球变化数据学报》。生物化学、基因遗传与分子生物学学科有3种数据期刊,排第3位(11.54%),包括《Human Genomics》《BMC Research Notes》《Genomics Data》。其他为:植物科学、生物与医学、信息科学与机器人科学各2种;动物学、环境与生态学、农学与生物科学、化学、考古学、心理学艺术与人文科学各1种。
在26种数据期刊中,有14种是纯粹的数据期刊,专门发表数据论文,另12种是以数据论文作为子栏目之一的期刊,也收录其他类型文章。
目前对于数据论文的命名还未有统一的规定,各期刊根据自己的内容特点来选取名称,对于科研人员在检索数据期刊或论文的过程中可能会造成一些障碍。现有的数据期刊以Data Paper命名的最多,有13种;其次是以Data note命名,有3种;以Dataset/数据集、Data descriptor、Data article命名的分别有2种;除此之外,还有Datahase、Genome datahase、Data in Brief、Metapaper这几种命名方式。对数据论文的命名不同一定程度上反映了数据期刊发表数据论文的内容差异,例如:Pensoft出版的几种数据期刊发表的数据论文均被称为Data paper,其内容是对大的数据集的描述;《BMC Research Notes》《Gigascience》发表的Data note文章主要描述生物学、医学、遗传与分子生物学方面的数据集或数据库,并且可以从关联的数据库中获取发表的数据信息;《Dataset papers in Science》发表的Dataset是对数据集进行描述的文章;《Scientific Data》发表的Data descriptor是对有科学价值的数据集进行概述的文章;《Genomics Data》发表的Data in Brief文章对基因组数据进行详细的描述,并包括对试验方法和质量控制分析的介绍;《Human Genomics》发表的数据论文以Genome Datahase命名,表明其文章内容均为基因组数据。
本次调研的26种数据期刊均采取开放获取(OA)的方式出版,其中个别不属于全OA出版的期刊其发表的数据论文也可被在线免费获取。数据论文的文章处理费用(APC),除了《Earth System Science Data》等4刊目前是免费之外,其他数据期刊的APC为$127-3000。其中:≤$500的16种,占61.54%;$501-1000的3种,占11.54%;$1001-2000的4种,占15.38%;$2001-3000的3种,占11.54%。
在出版周期方面,部分数据期刊打破了按照固定周期出版的模式,14种数据期刊只要数据论文通过同行评审,随时可以在线发表。
在26种数据期刊中,有10种被SCIE收录,其中属于纯数据期刊的包括《Gigascience》等4种,2016年的影响因子分别为6.696、6.871、2.8和4.836,在10种数据期刊中分别排第1、2、5、8位,从影响因子指标的角度可见纯数据期刊的影响力比混合数据期刊好。
3、国内外数据期刊发展的现状及出版政策
1999年美国生态学会(ESA)出版的学术期刊《Ecology》首次刊发数据论文,2001、2003、2008年OA出版商Biomed Central先后创办了《BMC Plant Biology》《Human Genomics》《BMC Research Notes》3种数据期刊,2008年pensoft创办了《ZooKeys》,但这5种均为混合数据期刊,只是将“数据论文”作为一个子栏目。2009年Copernicus创办了一种纯数据期刊《Earth System Science Data》,自此每年都有新的数据期刊创立(表1)。从2012年开始,数据期刊呈现快速发展态势,2012-2014年间创刊的数量剧增,3年间共创办了13种,占目前数据期刊总量的50%(图1)。
图1 国内外数据期刊发展趋势
我国第一种数据期刊是2014年中科院地理科学与资源研究所发行的《地理学报增刊》,该刊介绍有重要共享价值的科研数据,同时配合“全球变化科学研究数据注册与出版系统”的运行。2016年,中科院计算机网络信息中心创办了《中国科学数据》数据期刊,中科院地理科学与资源研究所于2017年创办了《全球变化数据学报》。
从数据论文的发表数量(图1)来看,自2012年开始,数据论文发表数量平均每年以115 .42%的比例增加,至2016年发表数量达到最高,为1616篇。从发表数据论文的总量(表1)来看,截至2017年《Data in Brief》发文量最大,为1553篇。
为了实现数据的可利用,必须制定合适的数据共享政策及机制,以促使科研人员能够有效地共享并利用数据。目前国际上一些有影响力的大型出版社纷纷对科研数据的存储以及传播提出明确政策,几个典型数据期刊出版社的数据出版政策详见表2。
表2 国内外主要数据期刊出版机构的数据出版政策
出版机构 | 数据存储方式 | 数据内容与格式 | 数据同行评议标准 | 数据/论文引用标准 |
ESA | ESA的Ecology Archives数据存储平台 | 有详细规定 | 有详细规定 | 无数据引用规范 |
Biomed Central | 根据学科特点提供存储数据的知识库列表或期刊自身的数据库 | 有详细规定 | 有详细规定 | 用期刊内部编码对被引用文献讲行标识 |
Pensoft | 与人型国际数据仓储合作,如GBIF、Dryad | 尊从GBIF元数据规范 | 有数据质量审核的详细规定 | 有详细的引用格式 |
Copernicus | 无指分的数据仓储,作者自行选择 | 无明确的格式要求 | 经简单快速的评审后即可发表在期刊网站论坛 | 无引用规范,将DOI作为永久识别字段的选择之一 |
F1000 Reseearch | 与大型国际数据仓储合作,如Figshare、Dryad | 有明确的格式要求 | 经简单语言和格式审核后网站上发布数据论文,公开同行评审 | 将DOI作为数据论文的识别符 |
Uhiquity | 建议作者将数据存在Dataverse Network、Figshare等公共数据仓储 | 有明确的数据格式要求 | 明确了同行评议要求 | 有数据/论文引用规范 |
Elsevier | 为每种数据类型椎荐相应的公共数据仓储,如Genbank等 | 无明确的数据格式要求 | 明确了同行评议要求 | 无明确的数据引用规范 |
Wiley-Blackwell | 作者自行将数据集存储在合括的仓储,获得注册号 | 有明确的数据格式要求 | 明确了同行评议要求 | 有引用规范,用DOI标识数据,要求提供URL链接 |
Springer-Nature | 为每种数据类型椎荐相应的公共数据仓储,或存储在通用数据库Figshare、Dryad中 | 有对数据描述符的内容格式要求 | 有对数据讲行审核、同行评议的具体要求 | 有详细的引用格式 |
中国科学院地理科学与资源研究所 | 数据存储在全球变化科学研究数据注册与出版系统中 | 有详细的出版格式和元数据标准 | 有同行评议表,无同行专家评审政策 | 无引用格式要求,用DOI标识数据论文 |
中国科学院计算机网络信息中心 | 数据存储在出版机构自己的科学数据存储库(science DB)中 | 有详细的稿件写作要求 | 公布同行评审讨程,无同行评审标准 | 无数据引用标准,用DOI标识数据论文 |
3.1、数据存储位置
数据期刊或数据论文的核心是数据,因此,数据存储位置是期刊数据出版政策的重要组成部分。目前主要有2种数据存储方式。
1)要求作者将数据按照特定类型提交并存储在适当的第三方公共仓储中。大部分数据期刊属此类情况,如BMC、Springer-Nature、Elesvier均为每种数据类型推荐相应的数据仓储清单(Genbank、DDBJ等)。如果某些特殊数据类型找不到合适的存储位置,可选择通用仓储进行存储(Figshare、Dryad等),作者提交数据论文时提供注册号或检索地址。公共数据仓储使数据更易被发现和获取,并提供数据的格式化存储,支持特殊领域的数据发表标准。
2)数据期刊有自身的数据库,允许将数据直接提交到期刊的数据库中。如《Ecology》发表的数据论文要求作者将数据提交至ESA官方数据仓储Ecology Archive中,BMC出版的《Gigascience》有自己的数据存储库GigaDB。
3.2、数据质量控制
数据的质量控制涉及数据的格式、内容与注释的完整性、同行评议等,精确、规范的数据是保证数据论文质量的前提。Springer-Natur出版的《Scientific Data》对其发表的数据论文进行结构化和规范化,要求提交的稿件包含题名、摘要、方法、数据记录、技术验证、用法说明、图和表等要素,并符合对应的格式要求,这有利于信息检索、分析挖掘以及相关利用。那些存储在公共数据仓储库的数据,应该遵循不同数据仓储库的存缴、出版和共享政策,例如Pensoft与全球生物多样性信息网络(GBIF)联合启动了数据论文示范项目,作者提交数据论文时需遵从GBIF的元数据规范。
Springe-Nature对数据质量进行控制的方法包括:对于数据描述符的内容信息是否符合规范进行审核;对于数据及产生流程的科学性进行专家评审。不同学科类别会成立专门的编委会来对数据进行评审,编辑和审稿人会评估数据描述的完整性以及与现有共同标准的匹配度、数据收集过程的技术严谨性、数据集的重用价值、用于存储数据的知识库是否合适。
3.3、作者权益管理
政府、基金资助组织、科研机构和期刊出版界近年来陆续研究和制定了科学数据的管理和共享政策,大多数出版社和期刊都鼓励甚至强制规定作者采用知识共享署名协议(CC-BY)。除ESA出版的《Ecology》的数据论文未提及作者版权归属外,其余的数据期刊均提到作者保留对其数据论文的著作权合法利用。对引用权限和创作许可的规定,不仅能够保证对数据论文的合理使用,更是对作者数据贡献的一种承认,同时也有助于跟踪数据重用和科学家的数据分享活动。
Springer-Nature出版的《Scientific Data》和Elsevier出版的《Genomics Data》规定他人在使用作者提供的数据时,可自行选择遵循CC-BY 4.0或知识共享署名-非商业使用(CC-BY-NC4.0)或知识共享署名-非商业使用-以共同方式共享(CC-BY-NC SA 4.0)许可协议。Pensoft出版社采用开放数据共享署名(ODC-BY)作为数据发表的首要和默认协议,此外也强烈推荐作者采用知识共享豁免(CC-Zero)和开放数据共享公有领域的贡献与许可协议(PDDL)。
所有数据期刊都有明确的引用要求,并给出了引用示例。因为同时涉及数据和论文引用,所以对数据论文的引用与传统的文献引用有所不同。《Scientific Data》建议,其他人引用数据论文时用传统的参考文献格式引用数据描述符,引用格式包含:作者、题名、刊名、卷、文章号、数据对象标识符(DOI)、年份。Pensoft期刊有分别针对文中和文后数据和论文引用标准的示例,内容包括作者、年份、数据/论文题名、数据存储平台/期刊、数据标识符/卷页码DOI。
4、我国数据期刊出版发展的建议
我国数据期刊出版起步较晚,在科研数据的存储、管理和发表上与国外相比还存在明显的差距。虽然从“十一五”开始已经陆续建设领域数据存储平台;但由于缺乏统一的标准和规范的数据提交政策,仍然缺乏广泛影响力的科学数据存储平台。同时数据的质量控制也是当前数据期刊还要进一步解决的问题,数据质量不仅包括数据集的真实性、可靠性,也要求数据集的元数据符合领域或者相关标准,以便增加数据复用的便利程度。另外,对于衍生数据和加工数据的发表标准也还在进一步的探讨中。我国学术期刊大多欢迎作者提供可编辑的原始数据,但并未建立严格的科学数据审查机制,要求作者负责数据内容的精准和完整。此外,国内期刊对数据共享和传播的态度较为保守,限制数据复用会阻碍数据期刊的持续性发展。
目前,中国科学院地理科学与资源研究所与中国科学院计算机网络信息中心都将数据存储在自己的数据库中。其中,全球变化科学研究数据注册与出版系统网站提供了基础的共享政策和作者投稿政策,但作者服务政策、数据保藏政策和同行专家评审政策还没有公布。其网站的技术文档中提供了详细的数据论文出版格式、元数据标准、同行评议表、出版流程和DOI注册编码和规则。中国科学院计算机网络信息中心出版的《中国科学数据》有明晰的投稿指南,详细规定了出版条件、投稿要求、写作要求、投稿方法和评审过程,但没有具体的同行评审和数据引用标准,采用CC-BY 4.0共享许可协议。
随着我国《科学数据管理办法》的发布,有关科学数据的共享、安全、传播等问题必将受到科学技术行政部门、科研机构、出版界等多方人员更大重视。基于国内外科学数据出版和数据期刊的调研,本文建议从以下3方面加强我国科学数据共享与传播工作。
1)建立数据仓储并加强期刊与数据库的关联。目前我国的数据期刊仅是通过自建的数据库相关联,建议参照国外经验,对于专业性强的期刊,可以按公共数据仓储的要求建立专业数据仓储(如生物学、地球科学、医学等),供相关专业数据期刊集中进行数据出版;对于综合性期刊,可建立统一的公共数据仓储。此外,建议加强与国外数据库的关联,共同推进科学的数据管理、发布、共享、复用数据生态体系。
2)健全数据质量控制和评议标准。科学数据作为重要的科研成果被纳入到学术出版体系中,对其质量加以控制尤为重要。进行数据出版时,应采用严格的同行评议机制,尤其要提请评审专家对数据及数据说明的完整性、数据格式的标准性、形成数据的方法及过程的严谨性和科学性进行有效评价。此外,由于元数据是出版内容的基本单元,对各平台实现互操作具有重要意义,因此对元数据结构标准进行规范是保证各期刊出版数据高度共享的关键举措,在制定数据出版格式标准时应充分考虑数据格式的完整性。
3)制订科学数据统一的引用规范和标准。由于缺乏规范的数据引用机制,科学家担心数据被盗用、数据共享无法体现学术平等。数据期刊要实现数据被全世界的科研工作者检索查询、阅读和引用,必须有大家共同遵守的引用规范和标准。数据期刊应该与数据中心共同制定规范的引用格式,并有明确的引用说明,这些规范和标准应具有普适性和通用性。
在新型出版模式下,学术期刊的作用不仅仅局限在提供文献资料支撑上,而是与知识服务紧密结合起来。只有通过各方的努力和实践,数据期刊的优势才能更好地发挥出来,从而更好地推动科研的发展。