【作 者】李修 南京大学信息管理学院,江苏 南京210023
【摘 要】数据出版是当前科学研究的热点,数据期刊是其中一个重要的发展部分。文章选择7种具有代表性的数据期刊的质量控制方法进行调研,对其论文结构标准和同行评议标准进行了比较研究。对比分析我国两个主要的数据期刊,为建设数据期刊出版质量控制机制提出建议。
【关键词】数据期刊;数据论文;质量控制
信息和网络技术的迅速发展带领人们进入“大数据”(big data)时代。数据不仅是科学研究的结果,还变成科学研究的生产基础。科学家不仅关心数据建模、描述、组织、保存、访问、分析、复用和建立科学数据基础,更关心如何利用泛在网络及其内在的交互性、开放性,利用海量数据的可知识对象化、可计算化,构造基于数据的、开放协同研究与创新模式。因此,诞生了数据密集型的知识发现,即科学研究的新范式。数据密集型科研范式的蓬勃发展使得数据出版成为学术信息交流的一种新型模式。在此环境下,数据论文和数据期刊应运而生。数据论文是数据出版的一种形式,是正式的学术出版物。作为一类出版物的统称,它具有描述科学数据本身、与数据集相关联等特征。在实践中,数据论文的多元性和丰富性体现在不同期刊所采用命名、所要求内容和所执行出版机制的不同。数据论文发表和存储于数据期刊中。数据期刊(Data Journal)按出版内容大致可分为两类:一类只出版单纯的数据论文;另一类除出版数据论文之外,还同时出版相应的学术论文、报告等其他文献。随着科学数据逐渐成为学术出版中的一种重要科研成果,数据期刊不仅是数据出版的重要途径,也是有效控制数据质量的一种出版方式。数据期刊的出版机构能够通过专业的出版流程,严格控制数据及相关信息的学术质量,能够按照出版标准和学术规范加工数据的描述信息。数据期刊能否有效控制数据论文质量决定其能否健康发展。数据期刊质量控制机制是编辑出版政策、数据发布标准、出版流程、同行评议等问题的综合结合。本文试图对部分具有代表性的数据期刊进行调研,分析各数据期刊出版质量控制的流程、机制、标准等特质,为我国数据期刊发展提出建议。
一、国内外数据期刊现状概述
1.国国外数据期刊发展现状
国外数据期刊主要有两种来源。第一种是由各人传统学术出版社推出的数据期刊,比如自然出版集团的Scientific Data,Pensoft出版公司的Biodiversity Data Journal等。第二种是开放存取运动中产生的独立学术出版商推出的数据期刊。它们由某个学科领域的公共机构或是第三方主办。如Copernicus Publications的Earth System Science Data,Ubiquty Press的Journal of Open Archaeology Data等。其中有一些数据期刊并不独立出版,它们要求在发表论文的同时发表数据论文。如F100OResearch在发表常规的学术文章的同时发表文章的基础数据。
到目前为止,国际上共有数百种开展数据论文出版的数据期刊。本文选取7种目前具有一定代表性的期刊进行质量控制机制研究。调研期刊概况如下表(见表1):
表1 国外7种数据期刊概况
名称 | Earth System Science Data | Scientific Data | Geoscience Data Journal | Biodiversity Data Journal | journal of Open Archaeology Data | BMC Research Notes | Genomics Data |
ISSN | 1866-3508 | 2052-4463 | 2049-6060 | 1314-2828 | 2049-1565 | 1756-0500 | 2213-5960 |
开始时间 | 2009 | 2014 | 2014 | 2013 | 2012 | 2008 | 2014 |
出版商 | 哥白尼出版公司 | 自然出版集团 | Wiley出版集团 | Pensoft出版公司 | Ubiquity Press | BioMed Central | Elsevier出版集团 |
领域 | 地球科学 | 自然科学相关学科 | 地球科学 | 生物多样性 | 考古学 | 生物学、医学 | 基因 |
根据调研,数据期刊具有以下特性:一是大部分数据期刊是混合型期刊,纯数据期刊较少。二是一些出版集团旗下拥有数个数据期刊,如BioMed Central旗下期刊总数超过70个。三是从学科方面看,生命科学、医学、地球科学领域数据期刊发展较快,有数据量大,数据集规范、更新速度快等特点。这与学科相关的数据知识库数量较多、建设较完备有很大关系。四是与社会科学相关的数据期刊数量和发表的数据论文数量都相对较少。具有代表性的是journal of Open Archaeology Data。它是一个面向考古学数据出版的数据期刊,其所在出版社Ubiquity Press主要面向社会科学的数据出版,旗下还拥有心理学、管理学等社会科学数据期刊,与其他数据期刊有较大的学科差异。五是所有数据期刊皆采用在线出版的模式。数据期刊往往不同于传统期刊按时间周期定时出版,是按照主题类型,在通过同行评议后随时出版,具有较强的灵活性。
基于上述特性,数据期刊主要针对数据论文的形式质量和内容质量进行质量控制管理。结构标准指南和同行评议是管控的两种主要方法。它们互相渗透、有机结合,形成了一套较为有效的质量控制管理机制。
2.国内数据期刊发展现状
我国已于2013年开始开展了数据出版活动。目前主要有《全球变化科学研究数据出版系统》和《中国科学数据》(China Seientific Data)两个较大的数据论文出版系统。2013年我国首个全球变化科学数据出版系统建立。目前已出版数据集124个,作者数335位。该系统由地理资源所、中国地理学会主办,CODATA发展中国家任务组、肯尼亚JKUAT大学、国家地球系统科学数据共享平台、数字化林超地理博物馆共同协办,数据论文通过《地理学报(增刊)》的方式发表。到目前为止,该系统网站提供了基础的共享政策和作者投稿政策。作者服务政策、数据保藏政策、同行专家评审政策还没有公布上线。其技术文档中提供了详细的数据论文出版格式、元数据标准、同行评议表、出版流程、DOI注册编码和规则,及DOI注册浏览器的应用指南。《中国科学数据》,由中国科学院主管、中科院计算机网络信息中心主办。是目前中国唯一的专门面向多学科领域科学数据出版的数据期刊。该刊重点收录具有不同学科领域研究特色的数据论文,包括但不限于生命科学与医学、地球系统科学、空间科学与天文学、物理学、化学化工、材料科学与工程、信息科学、社会科学等学科领域的基础数据及数据产品,同时兼录数据科学评述以及数据观点论文。数据论文提交投稿的同时,作者须提交数据集到指定科学数据存储库(www.scidb.cn)。该刊有明晰的投稿指南,详细规定了出版条件、投稿要求、写作要求、投稿方法和评审过程。该期刊提供了数据论文同行评议的评审专家和评审要求。同行评议原则上互盲。
二、国外数据期刊出版质量控制机制分析
如何确保高质量的数据论文和高效使用数据是数据期刊出版的两大间题。前者是后者的基础。而实验数据数量和体量往往庞大冗杂,期刊难以实现对数据进行有效的管理和评价。由于数据论文诞生于一个自发既成的现象,目前各大数据期刊没能有通行的数据论文结构标准。各数据期刊一般采用提供结构标准指南和同行评议两种手段来对数据论文进行质量控制。
1.论文结构标准
数据期刊规定数据论文格式。不同的规定导致数据论文结构形式相异。数据期刊会在其作者指南中提出对数据论文的结构标准。下页表2是对数据期刊公布的作者指南和投稿要求中提出的结构标准的调研。
表2 数据期刊结构标准
名称 | Earth System Science Data | Scientific Data | Geoscience Data Journal | Biodiversity Data Journal | journal of Open Archaeology Data | BMC Research Notes | Genomics Data |
质量要求 | √ | √ | √ | √ | √ | √ | √ |
版式要求 | √ | √ | √ | √ | |||
指定存储 | √ | √ | √ | ||||
论文标识 | √ | √ | √ | √ | √ | √ | √ |
共享协议 | √ | √ | √ | √ | √ | √ | √ |
提供模板 | √ | √ | √ | √ | √ | √ | |
版权申明 | √ | √ | √ | √ | |||
数据范围 | √ | √ | √ | ||||
引用规范 | √ | √ | √ | √ | √ |
从调研中我们可以发现,数据论文结构标准涵盖了论文的内容质量和形式质量。首先,期刊一般要求数据论文具有高质量的内容。这个要求通常比较宽泛。其次,控制数据论文的形式质量是提供结构标准的主要目标,从数据期刊提供的样例来看,它们没有通用或固定的模板。旨在提高该论文的引用效率的同时保障数据论文的知识安全。与传统论文相同,每一个数据期刊都会要求作者提交一定格式的论文,其中包括摘要、关键词和引用。数据期刊会向作者提供模板说明、文件类型以及数据文件的结构和格式。这些作者指南通常非常详细,整体指导了数据论文结构。这些规定有利于数据期刊上的数据论文在不同的系统间进行交流。同属一个出版集团旗下的数据期刊往往通用一个指南,如Springer Open旗下的BMC等数据期刊。有一些期刊对于数据论文的部分要求是一致的,如每一篇数据文件必须有一个摘要,介绍数据工作的主要内容。这些内容与其发表的期刊主题密切关联,如BMC旗下各数据期刊。有些指南规定通用论文形式,内容上则相对自由,如地球系统科学数据。还有一些期刊制作模板和工具来指导稿件的生产和提交,如Scientific Data和Pensoft journals等。
除了准则和模板,一些数据期刊还开发了支持作者生产数据论文的工具。Pensoft开发了专用的书写工具(Pensoft Writing Tool.简称PWT)。这是一个支持数据文件协同生产的在线工具。首先它是基于一个模板的工具(其中包括一个数据文件的模板),它引导作者一步一步正确地在模板部分填充数据,选择生成作者介绍、领域分类和从公认的信息系统中选取词表。另一个支持编辑数据文件的工具是集成发布工具包。该工具由全球生物多样性信息系统开发,专门用于发表原生生物多样性数据。工具具有从数据集元数据自动生成一个数据文件文稿的功能。作者只需按要求简要说明数据文件。审查者能在任何时间修改数据论文,修改后的元数据和数据论文同步更新。此举能够同时提高数据文件和数据集的描述质量。
通过分析,我们发现数据期刊虽然有不同的标准,但已有的结构标准已基本形成了对数据论文质量控制标准的共识。数据期刊规定论文结构标准具有以下共性要素:首先,数据论文需要提供一个可访问的链接(DOI或者URI)。二是数据论文需要提供一个简要说明。说明该论文数据工作的范围、数据的格式(包括数据使用的语言和组织形式)、数据的潜在应用方向和数据定性方面的简要说明。三是作者贡献说明,分别说明不同作者在其中的贡献。四是数据采集方法和工具。五是该数据论文遵循的共享协议。该协议一般遵循其所在数据期刊的共享协议。最后是要求数据可以动态存储。
这些要素一方面承袭了传统学术论文的质量控制要求,另一方面强调了数据论文的可引用机制,更符合数字出版环境高效率、易传播、大存储的特点。
2.同行评议
同行评议是有效的学术质量管控机制,是传统学术期刊的管控论文学术质量和文字质量的有效手段。它也是数据期刊质量管控的有效手段。绝大部分数据期刊向作者明确说明公开发表论文需进行同行评议。数据期刊会明确申明同行评议的准则,为审稿人提供评议指南(见下页表3)。
表3 数据期刊评议指南要素
名称 | Earth System Science Data | Scientific Data | Geoscience Data Journal | Biodiversity Data Journal | journal of Open Archaeology Data | BMC Research Notes | Genomics Data |
公开 | √ | ||||||
半公开 | √ | √ | √ | ||||
全封闭 | √ | √ | √ | ||||
数据连贯性 | √ | √ | √ | √ | √ | √ | |
可重复性 | √ | √ | √ | √ | √ | √ | √ |
可引用性 | √ | √ | √ | √ | √ | √ | |
数据方法 | √ | √ | √ |
通过调研,我们可以得出数据期刊对数据论文质量同行评议的通用准则通常要求数据搜集方法科学、合理。在数据形式上,数据论文需符合数据期刊提供的模板要求,同时数据需要符合一定标准。该标准通常与其存储的数据库相关联,符合数据库的数据标准。针对数据本身的标准要求数据的连贯性、可重复性和可引用性。对数据论文质量的评价是考察数据的实用度和贡献度。此外,如果数据论文与学术论文同时发表,要求两者之间具有一致性和关联性。
这些准则主要是对数据论文内容质量的评定。与传统学术论文内容质量评议不同处在于:一是数据本身的连贯性、可引用性。这是数据论文最大的特质。二是数据论文与学术论文的关联度。三是数据需符合期刊模板的结构要求。
大多数数据期刊采用双盲的同行评议。一些期刊会提供评审专家团名单并在数据论文正式出版前进行同行评议。也有一些期刊采用开放评审促进评审的公正和客观性,减少出版时问,采取“先出版,后评议”的后同行评议方式。地球系统科学数据是其中一个典型案例。地球系统科学数据采用两阶段的评议方法。数据论文提交后由一个专门的编辑进行评估,然后发表在“讨论论文”栏目中。这篇论文必须符合一些基本要求,比如其内容符合期刊的范围。编辑会对论文作一些简单修正,如拼写错误。这一阶段为8周,论文会公开地在社区内审查和讨论,每一篇数据论文至少收到两个评审的评论。在公开讨论阶段后,作者被要求公开回复评审评论,并产生一个修订稿,由编辑审稿后发表在期刊上。再通过编辑团队内部快速的基础检查后,稿件发表的状态为“等待同行评议”。然后会有相关五名评审专家参与审稿。他们将会判断论文是否具有科学性,给出通过、有保留意见的通过和不通过这三种不同的意见。论文的所有状态和评审的意见都会一同出版,由此导致数据论文产生多个版本。论文的“出版”意味着论文通过编辑初审,或通过同行评审持保留意见,或已通过同行评审三种情况。但只有完全通过同行评议后,论文才能成为一个被索引的文章,能被检索工具如 PubMed域Scopus和谷歌学术搜索检索到。这种方法使评议结果更公正明晰,促进了数据的共享,保证了数据论文的质量,也维护了数据期刊的学术质量和学术声誉。
通过调研数据期刊的数据论文结构标准和同行评议要求,我们可以得出以下四点。(1)数据的质量与其应用学科领域密切相关,数据质量的高低取决于在本学科内的适用性。因此,我们无法为数据论文建立全球通用的数据质量标准。数据论文的质量只能通过其所在领域的数据期刊建立相适应的机制来控制。现今通用的机制仍然基于传统期刊的管控方法:前期的投稿要求和同行评议。(2)数据误差难以修正。特别是一些自然科学领域的数据集可能是通过仪器自动收集的,虽然有一些自动校验数据、消除数据误差的方法,还不能实现自动发现并修正误差。提供动态存储的数据期刊基本依靠作者自发的数据更新来修正数据。数据质量不能通过第三方来得到进一步提升。(3)评估数据质量是一项艰巨的任务,它从根本上不同于评估传统的学术论文。传统学术论文的评价机制不能为数据论文提供全面的评价。因为数据论文是只关乎数据的文件,通常具有庞大的体量和复杂的形成机制。从上述分析数据论文质量控制机制的过程中,我们发现大多数现有的数据期刊依赖于传统的审查方法。数据论文仍然只能通过其作者、审稿人和编辑进行人工审查。有一些数据期刊具有处理相应数据集的专用标准。在大多数情况下,评估数据论文的质量与其相关联的学术论文质量评估直接相连,并没有单独对某一个数据集质量高低的评定或认可。事实上,数据论文是一种特殊的论文,应当有专门的质量评估标准。这个质量评估标准应为读者(即数据新的潜在利用者)提供所需要的该数据集的有效利用信息和相关应用性评价,评价应当简要、公开。(4)有效的数据库管理应当可以为数据出版质量提供有力的保障。建设数据库能为数据出版提供大规模协作的基础。数据库可以存储或修改除原生数据论文作者之外的其他贡献者对数据集的修正。此外,数据论文的质量审查程序应当逐步公开化,其公开的过程可以作为数据论文质量的证明。一些数据期刊也正在努力实现过程公开化。
大型数据集的质量评议对于评审人员是一个巨大的挑战。有部分研究者认为应该尝试从审阅前阶段开始进行数据出版的质量控制。这主要指通过规范作者行为对数据质量进行控制。该方法是根据已建成的数据库词表为基础,要求作者主动标引论文中的关键数据。标引来自一个能有效控制数据的平台,或是一个实现有效知识管理的数据库。其核心就是在论文前审阅阶段就以明确的目标分类控制了论文数据集的质量。美国的神经学专家发起一个试点项目——资源识别倡议Resource Identification Initiative (RII)。该项目旨在对方法类型的文章建立资源利用的标准,提高内容的可识别性和重现性。数据论文是引导作者自己标引原始数据(RRID),再将已标引的数据上传到数据库中。首先,作者通常具备标记数据的能力。该项目要求作者在发表文章前,标引出文章中的三种类型资源:原发性抗体、生物模型和工具(包括软件和数据)。这三个要素是生物医学研究领域的主要变量。作者可能被要求访问几个数据库,在已建立的通用词表中选择适当的标记。关联资源描述标记应当插入对资源的正确引用的文本中。当作者遇到困难时,该项目工作组会为作者提供帮助。在大多数情况下,作者的帮助申请会在24小时内被处理。RRID试点项目在2014年2月推出,截至2016年1月,参与项目的期刊从25种增到62种,其中包括F1000 Research等知名数据期刊。有超过300篇的文章使用RRID。实际的检索结果显示,使用作者提交RRID标引的文章更容易被机器识别,在检索界面中的显示更明确,更容易实现数据共享和知识交流。这也将是数据期刊进行质量控制的一种有效方法。
三、对我国数据期刊质量控制的建议
数据期刊出版的前景是为以数据为中心的一种科研范式提供可靠的平台。数据期刊控制数据论文质量的最终目标是保证数据集的可描述性和可引用性,使数据不再仅是科学研究的副产品。同时,数据期刊作为一个有效的数据共享途径能够加强科学数据的传播质量和效率。但是数据期刊目前还存在作者认可度不高、数据质量评议标准缺失、数据复用前景尚未明确等间题。这些问题其实都是数据期刊论文质量控制问题的伴生问题。一旦形成良好的质量控制机制,这些问题都将迎刃而解。要做到这一点则需要完善数据期刊的数据政策、管理机制、评价机制,开发与之相匹配的技术与方法。总体来说,我国的数据期刊仍处于起步阶段。与国外数据期刊相比,我国数据期刊的质量控制机制尚缺乏一定的有效性。对此,笔者提出的建议有:
1.加强数据期刊与数据库的关联
前述两例数据期刊只同自建数据库相关联,缺乏与其他国内外数据库的关联链接。首先,数据期刊应当与我国现有的相关数据库建立连接。以数据期刊为链接节点建设科学数据存储、出版和传播一体化的学术交流网络。其次,应当加强与国外数据库的关联。我国数据期刊应在积极自建数据库的同时加强与国外大型数据库(如Dryad数据库)的关联。这些数据库往往与多个数据期刊进行长期合作,已具有较规范的标引准则和质量控制机制。加强与这些数据库的关联,可以有效提升我国数据期刊的学术质量和格式质量,还可以加强我国学术社群在国际通用学术语言中的交流。
2.开发数据期刊自有稿件编辑器
不合规范的、低质量的稿件将加大作者和编辑的工作量。目前,《中国科学数据》只简单要求作者使用Word编辑排版。而国外数据期刊(如Pensoft开发的PWT)能以模板的方式引导作者填充数据(生成作者介绍)、领域分类和选取词表。数据期刊自有编辑器所制模板能有效规范数据论文的各个方面,提高数据的可用性。因此,自主开发嵌入编辑流程的相应的论文书写工具应当是我国数据期刊进一步的质量管控目标。
3.加大数据期刊投稿数量
相对于国外大型数据期刊而言,我国数据期刊数量较少,稿件数量较少,增长不快。我国应承认数据论文的科研价值,将数据论文的评价列入现有的考核评价体系中。期刊要加强向国内科研人员宣传本国数据期刊和数据知识库信息的力度,向优秀的科研人员争取高质量的数据论文稿件。
4.建设多学科多标准的数据期刊
不同学科的数据论文应当有与其领域相适应的标准。国外数据期刊数量大,分类也比较明确。我国应在建设大型全学科的数据期刊的同时,为不同学科的数据出版建设相应学科的数据期刊,并针对该学科数据的学科特性、生产机制、数据规范等建立不同的质量评价标准。
5.加快数据期刊同行评议机制的建设
我国数据期刊应当建设适应数据出版的“多版本出版”“先评议、后出版”等特质的同行评议机制,逐步实现同行评议过程的公开化。数据论文公开评议的过程成为论文质量的佐证。快速、公正、明确的评议能促进数据的共享和交流。
数据期刊是科学数据出版的一个基础工作,在科研数据共享和出版体系中发挥重要节点的作用。我国数据期刊应加强出版质量控制,建立有效的期刊质量控制机制,推进我国科研数据活动的发展。