业内信息

数据出版新进展

2018-06-15 来源:《中国科技期刊研究》
  关键词:开放科学;数据出版;数据期刊;数据存储库
 
  作 者:张恬,刘凤红:中国科学院文献情报中心科技期刊与知识服务中心
 
  摘 要:【目的】 对数据出版的发展现状和趋势进行分析和展望。【方法】 将与数据出版密切相关的利益相关方归结为三类,即政府机构与资助主体、出版商/出版者(包括数据期刊)、数据存储库及数据管理平台,采用文献调研、网站调研、政策报告分析、博客内容跟踪等方式对其近3年的发展状况进行梳理。【结果】 政府机构和资助主体对数据出版持积极态度,并不断加强基础设施建设;对出版者而言,数据出版范畴正不断扩展,各种类型、体量、阶段的科研产出都将被视为数据进行出版;数据存储库尤其是通用型数据存储库对数据出版的服务能力不断增强。【结论】 围绕数据出版的各利益相关方均在促进数据出版发展方面展开积极有效的探索。
 
  开放科学的理念和实践产生于16世纪末17世纪初,伴随着学术期刊的诞生,其成为一场重要的科学革命,打破了科研保密观——要秘密地追寻“自然的秘密”——的统治地位,建立了科学家为快速揭示新知识负责的新常态。随着科学研究的快速发展,科研产出成果逐渐丰富和多样,分工也趋向精细化,跨地域、跨学科、跨流程的科研协作方式逐渐成为主流,科学交流的内容和方式随之发生巨大变革,推动了开放科学运动的蓬勃发展。迄今,开放科学运动已至少扩展至6个方面,即开放获取(Open Access)、开放数据(Open Data)、开放源(Open Source)、开放方法(Open Methodology)、开放同行评审(Open Peer Review)和开放教育资源(Open Educational Resources)。
 
  在开放科学的宏观框架和体系下,作为首要的科研产出内容,研究数据的开放备受关注。由于研究数据意味着科研活动中广泛且多样化的物质产出,本研究将其定义为以研究和学术为目的,并可作为现象的证据实体,将数据集定义为数据出版活动中被集体处理的数据单元,因此本研究提及的研究数据不仅包括传统意义上的数据,还包括各种类型的研究产出。
 
  数据出版是推动数据开放的重要手段和激励机制。广义上讲,任何将数据公开并供他人重用的行为都可称为数据出版。数据出版确保了研究数据不再仅仅被作为论文中的表格或图片,而是被当作科研活动的一级科学产出。近年来,有关数据出版的理论研究、流程设计和实践总结时常见诸学术期刊,如Austin等分析和鉴定了关于数据出版工作流程和构成要素的参考模型;Edmunds等研究如何创新出版形式以关联或嵌入数据集和代码;Wright等关注特定数据类型(环境数据、社科数据、信息检索实验评估等)以研究创新性的解决方案等。
 
  数据出版主要有三种形式:作者将数据上传至公开网站或数据存储库;根据出版社或期刊要求,作者提供用于支撑传统研究论文观点和主张的附属资料;作者发表以数据为核心对象的数据论文。随着数据数量激增和出版流程规范需求,上述三种形式正逐步相互融合和转化。如一些数据期刊明确要求数据论文需存储于公共存储库;在尊重和遵守相应版权协议前提下,作为论文附属资料的数据也可通过数据论文形式再次发表。
 
  数据出版利益相关方主要涉及三大类:(1)政府机构、资助主体;(2)出版商/出版者(包括数据期刊);(3)数据存储库及其他提供数据管理、注册和培训的服务平台。笔者通过文献调研、网站调研、政策报告分析、博客内容跟踪等方式对上述利益相关方近三年的新动向进行梳理,以期分析数据出版现状,并展望其发展前景。
 
  1 政府机构、资助主体促进数据出版的新举措
 
  1.1 政策上积极推动开放科学和数据监管
 
  总体而言,政府机构和公益科研项目资助主体对数据出版一直持积极态度,由欧盟委员会开放科学云(European Open Science Cloud,EOSC)高层专家委员会前任主席、荷兰莱顿大学教授Barend Mons领衔提出的“FAIR原则”(Findable,Accessible,Interoperable,Reusable,即可发现、可访问、可交互、可重用)正成为科学数据管理、监管与出版的最新通用原则。该原则的创新之处在于其不只针对人,更多地强调机器对数据发现、获取、理解和使用的能力。
 
  欧盟委员会已开始基于FAIR原则对研究数据进行长期管理。2016年7月26日,欧盟委员会公布《Horizon 2020框架下的FAIR数据管理指南》,提出所有受Horizon 2020资助且参与“开放研究数据试行计划”的项目必须提交数据管理计划(Data Management Plan,DMP)。该指南给出Horizon 2020 FAIR DMP参考模板供项目经费获得者使用。从项目经费批准发放起6个月内,经费获得者必须提交首份DMP,并在整个项目生命周期内更新DMP。欧盟委员会向其项目经费获得者推荐用于DMP撰写的相关在线工具,包括:(1)研究数据联盟(Research Data Alliance)提供的元数据标准目录(Metadata Standards Directory);(2)EUDAT B2SHARE工具,可用于为研究数据选择适当许可;(3)数据存储库资源,如研究数据存储库注册库re3data.org,可存储出版物及数据,同时提供用作相互关联工具的数据存储库Zenodo、Open AIRE、CERN Collaboration及DMP Online工具。
 
  美国国立卫生研究院(National Institutes of Health,NIH)也正进一步发展数据管理、共享和引用策略,其新目标是希望通过一系列数据管理措施来保证数据的公平出版。为此,NIH于2016年11月就此问题公开向社会征集意见:(1)NIH资助项目所产生的科学数据应如何管理并最大限度地为公众所利用;(2)共享数据和软件应设立的引用标准。
 
  我国也正积极推行数据管理FAIR原则,《二十国集团领导人杭州峰会公报》在“创新驱动下的增长方式”部分中强调:“我们支持采取适当措施促进开放科学,推动在可发现、可访问、可交互、可重用的原则下,提高获取公共财政资助的研究成果的便利性”。
 
  1.2 通过基础设施建设支持数据开放和重用
 
  近期,欧盟委员会发布“云服务和世界级数据基础设施蓝图”,即公开Horizon 2020框架计划资助下的研究数据,使其可发现、可访问、可交互、可重用,确保科学、商务和公共服务从大数据革命中获益。根据这份蓝图,欧盟委员会开放科学云将通过加固和互联现有基础设施,为欧洲170万科研人员和7000万科技专业人员提供有效环境来存储、共享和重用跨学科和跨国界数据。该计划由欧盟委员会和28个欧盟成员国提供资金支持,集所有用于科研和创新的欧盟资助项目为一体,是全球同类项目中最大的资助项目。
 
  为进一步践行FAIR理念,欧盟委员会开放科学云启动GO FAIR计划(该计划由FAIR理念创立者和发起人Barend Mons亲自负责组织),旨在联合全球正在进行的云项目,包括美国“NIH Data Commons”项目、“澳大利亚开放研究云”项目、“西非地区开放科学云”项目、南非地区“非洲数据强化研究云”项目等。
 
  为加强科技创新基础能力建设,推动我国科技资源整合共享与高效利用,打破科技信息滞留和数据垄断格局,“十一五”以来,我国科技部、财政部组织开展国家科技基础条件平台建设工作,目前科学数据共享领域已经建成林业科学数据平台、地球系统科学数据共享平台、人口与健康科学数据共享平台、农业科学数据共享中心、农业科学院农业信息研究所、地震科学数据共享中心和气象科学数据共享中心7个平台,旨在重点集成各部门的科学数据资源,整合离散科学数据资源,开发数据集产品,构建面向全社会的科学数据管理与共享服务设施。
 
  2 出版商/出版者(数据期刊)数据出版的新探索
 
  2.1 数据期刊逐步丰富数据论文类型
 
  Leonardo等于2015年总结了数据期刊概况,笔者以此数据为基础进行总结(表1)。在117种支持数据论文出版的期刊中,有9种只发表纯数据论文,其余均为综合性数据期。除数据论文外,综合性数据期刊还出版传统类型文章。数据论文也分为不同类型,各刊对数据论文的命名也不尽相同,包括Data Article、Data Descriptor、Data in Brief、Data Note、Data Original Article、Data Paper、Database Article、Database Paper、Dataset Paper、Genome Database等。笔者仔细查阅不同期刊的数据论文,发现各期刊的数据论文虽然名称不同,但均以描述数据集的收集、处理过程及其格式等细节为主要内容。
 
表1  117种已开展数据出版的期刊概况
 
特征 JBM JCC JDP JES JEc JF1 JGD JGS
属性 M M P P M M P P
学科种类 15 4 3 1 1 2 1 1
开展数据出版的期刊数量 85 3 1 1 1 1 1 1
WoS收录的期刊数量 72 2 0 1 1 1 1 1
OA  
 
特征 JRR JNi JPe JPO JSD JSO JOx JUP        
属性 M M M M P M P P
学科种类 3 2 2 3 3 9 1 3
开展数据出版的期刊数量 1 1 7 1 1 8 1 3
WoS收录的期刊数量 1 1 2 1 1 2 1 0
OA    
注:①M为综合性数据期刊。其中JBM= BioMed Central journals,JCC= Chemistry Central journals,JEc= Ecology,JF1= F1000 Research,JRR=International Journal of Robotics Research,JNi=Neuroinformatics,JPe=Pensoft journals,JPO=PLoS ONE,JSO=Springer Open journals;② P为纯粹数据期刊。其中JSD=Scientific Data,JDP=Dataset Papers in Science,JES=Earth System Science Data,JGD=Genomics Data,JGS=Geoscience Data Journal,JOx=Database:The Journal of Biological Databases and Curation,JUP=Ubiquity Press journals;③表中数据在文献[Leonardo C,Donatella C,Paolo M,et al. Data journals:a survey[J]. Journal of the Association for Information Science and Technology,2015,66(9):1747-1762.]基础上有所更新。
 
  为促进数据共享和重用,Nature出版集团数据期刊Scientific Data于2016年4月扩充其文章类型,除传统数据论文类型Data Descriptor外,新增Analysis和Article两个类型。Analysis是对已有数据的重新分析和元数据分析,呈现基于已发表数据的新发现和新结论,体现该刊在推动数据重用方面的创新实践。该刊还规定,如果用于分析的数据未经发表,则要同时提交数据描述。提交的稿件则必须清晰地描述所有分析步骤以说明研究的可重复性,提供支撑源代码,同时阐明源自哪里、以何种方式获取文章中的数据。
 
  Article旨在发表支持可重复研究的系统和技术所进行的初始研究,包括如何共享、管理和处理科研数据。对数据存储库、标准、本体等研究内容也非常欢迎,前提是能够呈现数据交换、语义增强和知识生成;对数据共享习惯的认知、共享政策的有效性等社会学研究内容也在发表内容之列。
 
  2.2 数据出版对象延伸至各类研究产出
 
  除发表传统数据外,以发表单个观察结果、研究产出等非传统出版为目的的期刊正在兴起。由于很多研究产出无法被看到、被引用,更无法被他人重用,这些研究经常被遗忘或遗失,独立学术出版公司Pensoft于2015年12月创办新的开放获取期刊Research Ideas and Outcomes(RIO)支持出版整个科研生命周期中的每一步骤,这既包括传统研究论文,也包括非传统研究产出,包括但不限于:科研设想、资助建议书、实验设计、工作流、数据管理计划、软件管理计划、博士后项目书、见解论文、数据论文、软件描述、会议摘要、研究介绍、研究海报、项目报告、政策与交流简报、案例研究等。发表这些成果将帮助尚未获得资助、处于科研生涯早期的年轻研究者获得信誉、避免不必要的重复科研工作,有助于对“合作”和“新发现”产生重大影响。RIO荣获2016年学术出版与学术资源联盟奖。
 
  无独有偶,苏黎世大学于2016年初启动三盲评审的开放获取新刊Matters,用于发表纯粹的科学单元——单个观察结果。Matters在办刊宗旨中强调:如今的期刊更喜欢“讲故事”,而非单纯陈述观察结果;喜欢体现一致性而非个性。这避免了在高影响力期刊中发表文章时,一些不符合故事情节但科学和伦理合理的观察结果被舍掉,甚至出现数据造假等欺诈行为。因此,为支持客观研究成果公开发表,Matters声明,研究人员只要获得实实在在且符合科研伦理的观察结果,就可投稿,孤立数据、阴性数据、验证数据、矛盾数据均可被发表。科研人员不用担心投稿的结果是否为传统意义上的好科研故事。
 
  2.3 数据期刊及时调整出版策略
 
  随着Matters和RIO崭露头角,为在新兴学术出版中抓住机遇,BMC Research Notes于2017年宣布回归创刊初衷,只发表简短的research note,用于解放“暗数据”(dark data)。该刊创刊于2008年,旨在使研究人员的简短实验记录和单个观察结果得以发表,但于2011年开始接收主流文章类型。此次回归,该刊将只关注被称为“暗数据”的孤立数据、单个观察结果、验证数据、对立数据、非预期结果等。
 
  与此同时,2002年创刊的Journal of Negative Results in Biomedicine(JNRBM)宣布于2017年9月1日起停刊,其出版商BioMed Central将继续保证该刊已出版的文章可存档及可被检索。JNRBM的办刊宗旨是鼓励非预期数据的发表,解决文献中的偏见问题,这对其他期刊发表阴性结果和非预期结果起引领作用。随着能够发表此类文章的期刊数量的增多,BioMed Central认为没有必要保留一种出版非预期结果的期刊,其作用可被旗下的多种数据出版期刊所替代,而且这些期刊有各自特定领域。此外,对于非传统类型数据,BioMed Central推荐作者特别关注BMC Research Notes,因为其关注的数据类型远多于JNRBM,完全可替代JNRBM。
 
  我国数据出版虽然起步较晚,但近几年已加快探索和实践步伐。我国唯一面向多学科领域科学数据出版的学术期刊《中国科学数据》已被中国科学引文数据库(Chinese Science Citation Database,CSCD)收录,截至2018年2月底,该期刊平台累计访问量超过36万次。2018年2月,由中国科学院发起,国际数字地球学会(International Society for Digital Earth,ISDE)联合中国科学院遥感与数字地球研究所、中国科学院战略性先导科技专项“地球大数据科学工程”、英国Taylor & Francis出版集团、中国科技出版传媒股份有限公司等共同创办全球地球科学领域首个大数据开放获取学术刊物——《地球大数据》(Big Earth Data)。该刊不仅发表与地球大数据相关的研究论文、综述文章、快讯文章,还发表数据论文,鼓励作者将数据和算法等存储于被认可的公共存储器中,以促进数据共享和重用。近日,国家标准化管理委员会正式发布《信息技术科学数据引用》国家标准,并将于2018年7月1日起正式实施。《科学数据引用》针对科学数据传播机构和数据使用者,规定了科学数据引用元素描述方法、引用元素详细说明、引用格式等内容。其中,科学数据传播机构可根据该标准设计数据引用系统,并声明数据引用规则;数据使用者可根据该标准著录科学数据引用信息。《科学数据引用》国家标准的正式发布,标志着科学数据可以像学术论文一样被同行标准化引用,这将在一定程度上促进数据拥有者开放共享其数据。
 
  3 数据存储库对数据出版的新推动
 
  3.1 数据存储库注册平台功能升级
 
  数据存储库数量已非常庞大,且持续增长,据统计,截至2017年12月,世界上最大、最全面的数据存储库网络注册系统re3data. org(REgistry of REsearch data REpositories)收录的数据存储库已超过1500个。在数据量增长的同时,该系统也致力于功能升级。为确保所收录数据的有效性,re3data.org开始提供徽章生成功能,徽章将展示数据存储库的名称、认证图标(图1)、DOI和网站入口,通过徽章标识数据存储库的资质。徽章可自助生成,有两种尺寸和颜色可选,生成后下载为SVG和PNG格式或通过HTML代码片段嵌入。
 

图1  re3data.org提供的认证图标在数据存储库中的含义
 
  3.2 通用型数据存储库深入参与数据出版
 
  数据存储库数量众多,绝大多数为专业性存储库。通用型数据存储库虽然所占比例不高,但与出版社和期刊编辑部有密切的合作关系,对数据出版起着不可或缺的支持作用。
 
  Dryad国际数据存储库由期刊出版社、科研团体和其他利益相关者共同管理,截至2017年12月,Dryad平台已累计存储19799个数据包,63397个数据文件,全球范围内拥有20家会员单位,包括美国科学促进会、BMJ出版集团、牛津出版社、Wiley出版社等大型知名出版单位。此外,Dryad与656种期刊建立合作关系,支持期刊开展数据出版。Dryad数据提交流程已与很多在线稿件处理系统整合,以满足不同期刊数据出版的需求。目前,Dryad正与美国国家科学基金会(National Science Foundation,NSF)共同试行一个计划,用来测试拥有经费的组织机构直接对数据出版费进行资助的可行性。
 
  Figshare平台不仅用于存储和发布数据,还为任何形式的研究产出(包括图片、多媒体、预印本、报告、海报等)提供存储、管理和免费传播途径。2016年10月,Figshare开始为合作研究机构和出版商提供公共使用数据统计查询页面,与其合作的机构可查看自有数据在Figshare门户上的浏览量和下载量。2016年10月,Figshare发布面向全球2000位研究人员的调查报告——开放数据现状,对全球开放数据和共享实践现状进行评估,得出以下结论:(1)大多数受调查者认为开放数据已成为现实;(2)研究人员认为开放数据能够帮其获得信誉;(3)对开放数据的认知程度与年龄和事业发展程度无关;(4)研究人员对如何引用数据集所知不多;(5)开放科学是大势所趋,且未来将更加开放。
 
  Zenodo于2013年5月上线,由欧盟委员会通过Open AIRE(欧洲科研开放获取基础设施)项目予以资助,旨在帮助科研人员保存和共享研究产出。2016年9月,Zenodo将所有数据迁入全新平台,极大提升了平台的性能,表现在以下几方面:(1)更快,搜索、上传文件或API调用的响应速度更快;(2)检索更准确,全新检索后台和新用户搜索界面;(3)容量更大,由2 GB提升为50 GB;(4)更好地与GitHub整合;(5)可将研究与Horizon 2020资助项目互联,并自动输出至Open AIRE。目前,该平台已累计图片数据169143条,出版数据98401条,数据集21724条,软件15322个,报告3296个,海报1533个,视频477个,课件320个。
 
  4 结论
 
  在数据密集型科学研究范式下,数据价值越来越受到社会各界重视。国际科技医学出版协会描绘的STM 2020技术框架图明确表明,研究数据是重要的一级科研产出。随着数据量激增,对数据出版的探索与实践已不单纯停留于“数据公开和开放”阶段,而是向“如何实现机器和人对数据有效重用”以及“如何有效地从各种层面的研究数据中提炼知识和智慧”的方向迈进。通过上述梳理可看出,围绕数据出版的各利益相关方均做出积极有效的探索。
 
  有效的数据共享依赖于适当、可靠的数据管理,政府、资助主体正本着可发现、可访问、可交互、可重用的原则制定相应的数据管理措施,其目标为使数据更“FAIR”。而要实现此目标,基础设施必不可少,FAIR数据的出版、分析工具、计算能力、虚拟计算机和工作流体系是当前一些国家级数据基础设施的重要部分。欧盟成员国、美国、澳大利亚、非洲部分国家都在为各类科研资源建立基于富元数据的基础设施,以支持这些资源可被有选择地重用,而如何确保这些散布于全球各地的基础设施所提供的服务质量,是研究热点之一,FAIR原则将被作为标准制定的参考依据。
 
  对于出版者而言,数据出版的范畴正不断扩展,各种类型、体量、阶段的科研产出都将被视为“研究数据”进行出版。目前,数据出版主要表现为两个特征。(1)出版者已开始对暗数据出版进行探索。暗数据出版是鼓励科学家实践“公开笔记本科学”的主要做法,被视为开放科学的一部分,其动机是认为“科学研究太保密也太缓慢”,其灵感来源于开源软件。目前,已有科学家在数据存储库Zenodo以及博客实时公开实验记录。(2)出版者也在尝试出版数据以外的论文类型——研究要素论文。除数据论文外,整个科研周期中的各种客观要素正成为新的基于同行评议的论文类型而得以出版。长期以来,学术期刊以刊发“完整的科研故事”为主要形式,重点关注学术思想、科研问题的新颖性和独创性,而对构成科研周期的客观研究要素描述不够完整,一项科研活动的整个科研周期中包含广泛且多样化的物质产出,如科研设想、工作流、数据管理计划、实验方法材料、软件描述、案例研究等,这些科研产出构成科研活动的客观支撑条件,具有极高的科研价值。研究要素出版可看作数据出版的拓展和延伸,因此这一新兴的出版模式值得深入探索。
 
  来自政府、资助主体和出版者对系统管理、共享和重用研究数据的要求以及技术进步,导致对数据存储库尤其是通用型数据存储库的发展提出新要求。通用型数据存储库具备数据集格式化、存档、许可、出版费用、有效性、可使用性、可被发现和可被获取性以及引用等出版属性,它可发表任何类型的数据集,这在很大程度上促进了数据出版的发展。但是,面对“机器作为读者”的未来出版模式新要求,现有数据存储库显然还难以满足。因此,提升元数据规范管理、结合领域标准对数据进行语义丰富、与出版社(或期刊)紧密合作的丰富数据描述,或许是数据存储库未来发展需要考虑的问题。
 
 
 
 
 
 

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号