业内信息

大数据时代的数据出版

2020-12-16 来源:《编辑之友》
  【作 者】吴娜达:;叶雅珍:东华大学计算机科学与技术学院;朱扬勇:复旦大学计算机科学技术学院

  【摘 要】数据出版早期是指科学数据出版,后来一些学者把政府数据公开也纳入数据出版,其目的是将数据放置在公共数据库或网站公开实现数据开放共享。这种出版模式弊端在于权益宣示作用没有发挥出来,尚无法律约束,如科学数据出版和引用就只是科学家的自律行为。大数据时代,数据作为数字经济的关键要素参与分配,数据的商业价值凸显。从这一角度出发,数据出版更大作用应是一种数据所有权的宣示。因此,亟需设计一套符合法律规范、具备法律效应的数据出版体系。文章分析了当前科学数据出版的局限性,重点讨论为什么要数据出版、什么数据可以出版和什么数据需要出版等问题,提出一个数据出版可行方法。

  【关键词】数据出版;数据开放;科学数据;大数据

  Pensoft Publisher认为,数字时代的数据出版是指将数据上传到互联网进行公开,并支持除数据提供者以外的组织机构或个人下载、分析、复制以及引用数据。[1]维基百科对数据出版的定义是以出版的形式公开研究数据以便他人使用的行为。这是为公共使用而准备某些数据或数据集的实践,可以实现每个人随意使用。这种实践是开放科学运动的一个有机组成部分。这一实践带来的益处在多学科领域中获得了广泛共识。[2]

  1991年,Cinkosky等提出了数据出版这一科学数据共享方式,[3]就是针对科学数据的。科学数据主要来源于联合国、公益组织、各国政府等支持的科学研究项目,科学数据的开放共享有利于科学研究水平的提升、加快科学研究的进展、减少科研经费的重复投入,让公共财政支持的科研成果能最大限度地服务公众。在科学数据开放共享过程中,为了保护科学的劳动成果和创造积极性,提出了科学数据出版的概念,主要目的是在科学数据开放共享过程中保护科学数据生产者的有关利益(如著作权和所有权)。[4]然而,截至目前,数据出版的权益宣示作用并没有发挥出来,科学数据出版和引用活动是科学家们的自律行为,未见有国家出台与科学数据出版相关的法律法规约束数据出版和数据引用行为。另外,政府数据开放中的数据开放,是指将政府数据开放给公众,使数据能被任何人在任何时间和任何地点进行自由利用和再分发的电子数据。[5]因此,政府数据出版的重点还在于提高数据质量和数据可用性,并没有主张数据所有权的需求。

  数据出版意味着数据内容的公开,所有人都可以看到数据,也可以使用这些数据,就像图书一样,图书出版了,图书中的知识大家都可以共享。因此,在当今数据价值被广泛认可、数据资产和数据要素正开始建立的情况下,科学数据之外的数据(如商业数据)是否需要出版、是否能够出版、数据出版如何保护数据所有者的利益就成为需要考虑的问题,进而引出一个非常矛盾的现实情况——出版宣示了所有权,也意味着丧失所有权(所有人都看到并能够使用数据)。另外一个事实是科学数据同样具有商业价值,由于科学数据还涉及科技竞争,也许商业价值更大(虽然可能不直接)。这是大数据时代数据出版面临的挑战。基于此,本文重点讨论为什么要数据出版、什么数据可以出版和什么数据需要出版等问题,尝试提出一个数据出版可行方法。

  一、科学数据出版不适用一般数据出版

  1.科学数据出版方法

  随着数据开放共享的不断推进,数据出版及科学数据出版受到广泛关注、开展了很多研究,但目前仍处实践发展阶段,不同领域和背景的学者或从业人士都有不同角度和层面的理解和认识,尚未形成一个准确而统一的定义。[6]

  大多数情况下,数据出版就是指科学数据出版,科学数据出版是指与科学研究产生、获取、使用的原始数据及其衍生数据的出版有关的活动。

  由于科学的公益性,科学数据的开放共享理念在1958年前后就开始建立,[7]为保护科学家的工作成果,将科学研究数据公开出版以便其他科研人员和机构使用的同时宣示了科学家数据著作权。公共出版的科学数据确保了数据质量以及数据永久可访问。[4](8)科学数据出版有益于科学数据开放共享,因此得到了许多国家、国际组织和机构的政策支持,如《关于自然科学与人文科学资源的开放获取的柏林宣言》(Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities)、[9]《21世纪科学技术与创新公报》(Science,Technology and Innovation for the 21st Century)、[10]《关于公共资助的研究数据获取的原则与指南》(OECD Principles and Guidelines for Access to Research Data from Public Funding)、[11]UNESCO的《开发和推广开放获取政策指南》(Policy Guidelines for the Development and Promotion of Open Access)、[12]《科学欧洲开放获取研究出版物原则》(Science Europe Principles on Open Access to Research Publications)[13]等。这些政策的出台旨在鼓励科研人员或科研项目,特别是获得公共资金支持的人员或项目,将其科学研究数据进行开放共享。

  数据出版开展了很多实践工作。学术出版界已经有呼声要求作者在提交论文的同时将相应的科学研究数据公开。如Nature杂志就要求在其期刊上发表论文的作者,将相关的科研数据公开,其中学科领域有公认数据库的需将数据存储到库里,如果没有可将数据存在Figshare、Zenodo、Dryad等系统中,便于对数据进行同行评议和开放;[14]Nature为了更好地实现数据出版,出版了一系列数据期刊,如Earth System Science Data、Geoscience Data Journal、Scientific Data等;而作为数据提供者的全球生物多样性信息网络(Global Biodiversity Information Facility,简称GBIF),设有数据出版框架工作组(Data Publishing Framework Task Group)[15],和Pensoft出版商一起试点完成了从GBIF元数据目录到同行评审和编辑,再到以数据论文形式发表学术论文的完整过程;[16]CODATA德国全国委员会和德国国家研究基金联合启动“科学数据出版与引用”项目,该项目使用标识符(DOI和URN)对可用数据集进行永久标识,实现科学数据的可应用性,2005年德国国家科学技术图书馆(TIB)成为首个科学数据DOI的注册机构;[4]2009年DataCite在伦敦成立,研究数据出版标准流程、制定引用规范及为科研数据提供标准唯一标识符(DOI)服务,2012年国际标准组织正式批准DOI作为国际数字出版物代码。[17][18]

  2.科学数据出版的局限性

  然而,科学数据出版因其局限性,并不适合一般的数据(尤其是商业数据)的出版。其局限性表现在范围局限、作用局限、约束局限、渠道局限和监管局限五个方面。

  (1)范围局限。科学数据出版的数据范围是科学数据,人员范围是科学家,机构范围是科研相关机构(包括科学基金管理机构、科学组织、出版数据库机构等)。仅从数据范围来看,科学数据一般不包括政府数据、农业数据、制造业数据、金融数据等非科研活动中产生的数据。[6]

  (2)作用局限。目前,科学数据出版的作用并不清晰,主要是宣示科学家的创造性,类似于著作权。由于没有相关法律支持,科学数据出版并不能宣示数据的所有权归科学家所有。

  (3)约束局限。虽然很多科学基金和政府部门要求其支持的科学研究产生的数据公开或出版,但具体操作上并不严格,比如很难界定哪些数据是哪个科研基金支持的。另外,对出版的科学数据的引用也没有强制的手段。因此,科学数据出版主要靠科学家的自律和相关机构规定,并没有国家法律上的约束。

  (4)渠道局限。目前,科学数据出版主要方式是将科学数据提交到相关数据库、所撰写科学数据文章提交到科学数据杂志,大量的图书出版机构并没有参与其中,数据库管理机构面临着巨大的管理成本问题(如欧洲强子对撞机数据管理机构)。

  (5)监管局限。由于尚未建立科学数据出版体系,国家版权局、知识产权登记机构等监管机构基本没有介入科学数据出版的相关工作,因此,也极少有关于科学数据方面的司法案件发生。最多在研究领域出现有关科学数据引用的学术不端的零星案例,类似论文引用问题。

  3.局限性的原因

  科学数据出版的局限性是由科学数据出版尚未建立完善的体系造成的。数据出版的目的是保护数据生产者的利益,因此,相关法律体系的建设是关键。目前,各国尚未出台有关科学数据出版的专门法律,科学数据出版和引用活动更多的是科学家们和相关领域组织的自律行为。绝大多数政策、科研组织机构、出版机构等都仅仅是提倡或支持科学数据出版,而科学数据最终出版与否更多取决于科学家本人。我国目前也还没有出台科学数据出版的相关法律,只通过诸如《中国科学数据》等网络刊物对科学数据出版开展探索。随着科学数据出版的发展及相关引用标准的出台,数据出版期刊的学术地位逐渐被认可,出版的科学数据可以像学术论文一样被引用,但关于出版的科学数据引用刚刚起步,并未像引用学术论文那样规范,是否标注所引用的科学数据则是科学家们的自律行为。[19][20]

  科学数据出版是科学数据开放共享过程中对数据生产者利益的保护,但是人们更多把注意力放在科学数据出版对数据开放共享的推进作用上,较少关注对数据出版中的数据保护和引用行为约束。如科研基金组织及科研机构(NASA、RCUK、NIH等)要求受资助的项目必须提供科学数据公开获取方式,Nature等少部分期刊要求作者在论文发表时要将与之相关的数据公开,[14]这个主要还是科学数据的开放共享。

  对于已经出版的科学数据,本身经技术还原后同样存在信息泄露、隐私丧失、商业利益损失等风险(如用于研究癌症的医疗影像数据就存在泄露个人隐私的风险),需要制定法律法规对其进行管理和约束。当前,科学数据出版政策多是各个数据出版机构基于自身条件和需要而制定的内部管控制度,对数据存储方式、数据质量评测、数据引用等有所涉及。[6][20]但数据引用方面更多的是给出引用原则和标准,明确数据归属、来源,保证数据真实准确,便于数据发现等,而关于引用约束方面涉及较少。宏观层面,只有科学数据管理和数据保护方面的法律法规对这部分有所涵盖。2018年3月我国发布的《科学数据管理办法》,从国家层面给出了关于科学数据管理的指导意见,有专门关于科学数据的保密和安全的论述;同年7月,我国《科学数据引用》国家标准正式实施,对科学数据出版起到积极作用。2018年5月25日生效的《欧盟通用数据保护条例》(General Data Protection Regulation)是对个人数据保护最为严格的法律之一,关涉到科学数据出版中所涉及或关联的个人数据部分的数据保护问题。[21]但问题在于,所有这些法规条文,都没有对数据出版进行界定和约束,并没有用数据出版宣示数据的所有权或其他权利。

  总体而言,当前的科学数据出版尚未形成行业、领域以及国家等层面的直接关于科学数据出版的政策法规,科学数据出版体系尚未建立,对于数据出版及其数据引用行为的约束、管理、监管等多方面存在一定缺失,使得科学数据出版作用没有很好发挥。

  二、数据出版需求和条件

  1.数据出版是数据确权的一种方式

  大数据时代,数据对经济发展的驱动作用越来越明显。数据及相关技术的发展,不仅催生了新的产业形态,也对原有产业的转型升级起到了推动作用。生产、获取或应用有商业价值的数据将促进产业升级和经济发展。但数据的生产成本高且极易复制,使得其在经济活动中可能会损害到相关数据生产者或拥有者的经济利益。在经济活动中,如何合法、有效地开发、挖掘、使用有商业价值的数据,是发展数字经济过程中极为重要的课题。2020年3月,中共中央、国务院《关于构建更加完善的要素市场化配置体制机制的意见》明确把数据作为要素市场化配置的对象,并提出要加快培育数据要素市场。因此,数据资产化和产品化将进一步加速,数据流通将快速发展。在此过程中,数据确权是一个基础的关键性工作。

  数据出版是数据确权的一种方式。数据出版的主要目的是通过宣示数据著作权、所有权的方式保护数据生产者的权益,在数据确权比较困难的大背景下,数据出版是一种可行的数据确权方式,也是数据资产化的一项重要工作。[22][23]由于数据生产困难,而数据复制成本相较数据生产成本低,数据复制较为容易,数据在网络空间中容易传播,造成人们在使用数据时往往并不知道这些数据从哪里来、是谁生产、归谁所有、质量如何。这对数据生产者或拥有者的权益造成了极大伤害,也对数据使用者造成伤害。数据生产者、数据拥有者的权益长期得不到有效保障,会引发数据滥用现象,进而不利于整个数据产业、数据科技的发展。数据出版能从法律方面较好地解决这些问题,通过一系列措施保障、环节步骤和技术支持,[24]实现对数据权益的保护,保障数据生产者和拥有者的信誉和合法权益,提高数据重用的价值。

  数据出版还可以保证数据质量和数据的永久访问,满足数据使用者的长远需要。事实上,促进科学数据开放共享是数据出版的目的之一,经过同行评议或专业机构审核再出版的科学数据在数据质量和数据可访问性方面相对更有保障。

  (1)数据质量。数据出版对出版的数据质量起到保障作用。数据质量是数据挖掘、深度学习等技术产生效果的关键要素,所谓“垃圾进、垃圾出”。[25][26]因此,一个数据集的价值很大程度上取决于数据质量。数据出版通过同行评议、用户评价、数据标准化等方式,避免出版的数据被篡改和造假,保证数据的完整性和标准化,从而保证出版数据的质量,达到特定的标准和要求,实现数据的重用。

  (2)广泛告知。数据出版是将拥有的数据集广泛告知全社会,即数据公开并广而告之。数据出版之前,数据生产者或拥有者不清楚拥有的数据针对什么人、有什么用处,而数据需求方也不清楚要到哪里获取需要的数据。数据出版搭起了这个桥梁,数据生产者或拥有者根据一定的规则、格式、标准将数据上传到可信的存储库并得到很好的存储和监护,而数据需求方可以便利地查询、获取、利用数据。

  (3)数据永久访问。数据出版通过数据出版机构,将数据上传到可信的存储库并得到很好的存储和监护,这些数据就实现了永久访问。这样做的好处是数据拥有者不必花费大量的资源来维持自身数据集。

  到目前为止,数据出版基本都是科学数据出版。科学数据是一类典型的数据形态,是各科学领域通过各种方式获取并用于科学研究活动的原始数据及其衍生数据,是最早开展大数据研究的一种数据类型,也是最基本、最活跃的科技资源,更是推动经济社会发展的重要基础和工具。在研究、开发、需求、应用等方面,科学数据一直起先导作用,在数据领域具有代表性。从现实情况看,数据开放共享虽然得到很多政策的支持,但数据权属、数据规范、数据烟囱等各种问题,阻碍了数据开放共享程度。数据出版为解决这些问题提供了有效路径,促进科学数据的开放共享。

  2.满足什么条件的数据才可以出版

  如同图书、音像出版物一样,并不是所有的数据都是可以出版的。可以出版的数据应该满足一定条件:数据权属能够确定、数据内容无害、数据标准规范、数据质量优良、数据可读性及阅读器。

  (1)数据权属能够确定。数据出版是为了宣示数据的著作权和所有权,因此首要前提是数据是合法生产的。关于数据权属,一个直观的观点是:数据非天然,情理上属于数据生产者。[27]如果数据是独自生产的,这个权属比较容易界定;当数据是由多个主体生产时,则需要各个主体签订公共拥有权属协议或者协议某个主体拥有权属。

  (2)数据内容无害。出版数据就是向社会公开,任何人都可以访问这些数据。因此,可能危害社会和个人(如涉及个人隐私)的数据不可以出版。比如病人的电子病历数据涉及病人个人隐私,是不能被出版的;再如公民的身份证信息,不仅涉及个人隐私,如果样本足够大会对社会和国家安全造成危害,也不能被出版。

  (3)数据标准规范。数据要符合数据出版行业的标准规范要求。一个可出版的数据集应满足统一规模和格式、完整内容、版权标识、访问唯一标识等限定,出版的数据基本上规模比较大、类型比较多,为便于数据使用,可对拟出版的数据集进行描述和说明。

  (4)数据质量优良。数据必须质量优良,才能保证是可用的。作为一个出版物,数据的质量必须要有保证。只有当数据的可信度、准确性、完整性、可理解性、可利用性、安全性等都达到一定的标准和要求时,才能进行相关数据的出版。

  (5)数据可读性及阅读器。数据出版即宣示数据所有权,必须让公众看到出版的数据是什么。因此,数据可见(可读)也是数据得以出版的一个必要条件。不论何种格式,都要有相应的通用型或专用型阅读器确保数据可被人或机读取。另外,只有可读的数据,才能被人或机查询、阅读、编译、利用和二次开发,实现出版数据的价值。

  3.哪些数据需要出版

  哪些数据需要出版?首先是按照规定或者政府要求公开的数据,包括政府数据、科学数据、公共数据等;其次是能够从现实世界采集的数据;再次是自愿公开的数据。

  (1)必须公开的数据。根据国家法律法规要求必须公开的数据,包括政务公开数据、科学、自然和社会数据等。这类数据出版有三个目的:一是宣示著作权或所有权;二是对数据质量的承诺;三是对数据真实性的承诺。2015年,我国发布了《促进大数据发展行动纲要》,对加快政府数据开放共享做了任务部署;2016年,国务院印发《政务信息资源共享管理暂行办法》,2017年国家发改委制定《政务信息资源目录编制指南》,规范我国政务信息资源目录的编制。各级政府也出台了政务数据资源目录,按规范梳理各部门已有数据,将符合要求的政务数据对社会进行开放。2018年,国务院办公厅印发《科学数据管理办法》,按照“开放为常态、不开放为例外”原则对政府预算资金资助形成的科学数据进行开放共享工作等。这些工作为数据出版奠定了良好的基础。

  (2)容易采集的数据。由于数据容易采集(如天气温度测量、一座山峰的高度、一个路口的人流量和车流量情况等),先采集的人需要通过数据出版宣示著作权或所有权,如同科学发现一样。这类数据的出版将避免大量数据的重复采集、多头采集,减少政府和社会资源的浪费,这类数据的所有权属于数据采集的相关单位或个人,且数据可以通过测量、采集和实验等方式较容易地获取,这类数据可作为跨界数据运用到自然、社会、经济等领域,发挥数据融合的价值。

  (3)自愿公开的数据。如果数据拥有者自愿将数据公开给社会使用,可以同时选择以出版的形式公开,著作权归拥有者所有。2017年至2018年有上海公共交通卡股份有限公司提供一卡通乘客刷卡数据、上海强生智能导航技术有限公司提供强生出租汽车行车数据、上海燃气(集团)有限公司提供上海燃气数据、阿里云数据中心提供目标站点降水量数据、城市气象数据、路段平均旅游时间数据,还有与高德地图类似的应用数据等,使用者越多,地图的应用精准性越高。

  三、数据出版方法

  科学数据出版的局限性导致科学数据出版难以推广到一般数据的出版。关于数据出版,一个非常矛盾的问题是出版宣示了所有权,也意味着丧失所有权(所有人都看到并能够使用数据)。解决这个问题的办法就是法律,建立和完善数据出版的法律,保护数据所有者的权益。

  1.数据出版的途径

  殷沈琴认为科学数据出版的模式有六种:存储在机构知识库并发布;在项目网站或者机构网站发布;提交到数据期刊出版;提交到支持出版的期刊出版;提交到云端的仓储库进行自出版;存储在高校专业的数据中心出版。[28]

  从数据出版的目的看,数据出版应由第三方机构出版,而这个机构需要获得国家版权部门或其他法律授权的部门认可。就当前的状况看,可以分为通过出版机构进行数据出版和通过非出版机构进行数据出版两种基本途径。

  (1)通过出版机构进行数据出版。这种途径与传统的论文出版途径类似,通过具有出版资质的机构进行数据出版。这种途径的数据出版形式比较多样,可以作为传统论文附件进行出版,也可以采用数据论文出版的形式间接将数据公开。

  作为传统论文的附件进行数据出版。科研人员开展相关科学研究工作,除了形成论文这样的研究成果外,也产生了有价值的科学研究数据,这些数据是论文本身的重要依据和延续,因此在发表论文时,作者会被要求同时上传对应的科研数据。

  数据论文出版。科学研究进入第四范式时代,科研人员进行相关科学研究工作越来越依赖于数据,也生产了大量数据,数据本身成为科研的重要成果,成为专门研究和描述的对象。数据论文专门描述科学数据本身,对其内容、价值、功能等关键信息进行介绍,是一种新型学术出版物,有一定的格式、结构规范和标准。[29]

  (2)通过非出版机构进行数据出版。[30]这种途径主要由高校、科研机构或相关学术组织等建立的数据存储机构进行。这些机构大多拥有雄厚的资金和技术实力,在数据存储、管理和监护方面拥有优势,但由于这些机构是研究机构而非出版机构,在出版专业性方面相对欠缺,对数据描述的规范化和标准化要求也参差不齐。这种途径的数据出版主要以数据单独出版为主。数据存储机构从存储对象的来源和类型分,可分为通用型数据存储机构和特定型数据存储机构两种类型。

  通用型数据存储机构对存储的数据来源和类型没有特定要求。有些高校的数据存储机构是对全球开放的,如哈佛大学,它的数据存储机构支持全球科研人员进行数据出版;有些数据存储库对数据的学科领域没有要求,如Figshare、Zenodo、Dryad等,接受各学科领域数据的存储,并对各学科领域数据开放同行评议。

  特定型数据存储机构对存储的数据来源和类型有特定要求。有些高校的数据存储机构仅对特定科研人员开放,如普渡大学的数据存储机构只支持隶属于普渡大学的科研人员或者参与普渡大学研究项目的科研人员的数据出版;[29]另有些学科领域有公认或专设的数据存储库,如Ecological Archives数据存储库、中国地球系统科学数据共享平台、中国动物志数据库、美国国家冰雪数据中心等。

  2.数据出版体系数据出版体系如图1所示。目前,和数据出版有关的法规有ICP认证、《网络文化经营许可证》《信息网络传播视听节目许可证》《网络出版服务许可证》《互联网新闻信息服务许可证》《网络安全法》《科学数据管理条例》等。



图1 数据出版体系

  根据数据出版相关法律法规,数据拥有者在出版数据时,可以将数据提交给数据出版机构进行审核。数据出版机构根据法律法规及内部政策要求,对数据进行审核。数据出版内部政策一般包括数据合法合规性、存储机制、数据引用规范、元数据标准、数据质量要求、评审机制等。数据未通过评审的,出版机构将数据及结果退回给数据拥有者;通过评审的,由出版机构向数据权属登记机构提出对该数据进行登记并申请数据版权标识符,获取数据市场流通通行证,正式出版发行。用户通过专门的数据阅读器读取出版数据,若需引用,可根据数据引用规范进行操作,并接受有关机构对数据使用的监管。

  (1)评审机制。对出版数据质量进行控制的重要一环。评审过程中对数据规范性、质量、真实性等进行衡量。

  (2)数据引用规范。与传统出版物类似,数据出版引用需要一定的规范标准,制定引用规范时需考虑数据拥有者、数据名称、数据版本、出版机构、数据论文、唯一标识符分配、数据获取方式等因素。

  (3)元数据标准。元数据是描述出版数据的数据,是让使用者快速了解出版数据的说明。元数据的规范化、标准化,对类型多样的出版数据较有意义。元数据标准需要对元数据内容结构、格式、语义、语法等进行规范。

  (4)版权标识。通过考察各类书籍与科学数据出版的案例,可以认为如果要实现数据集的零售出版,必须建立标准化的标识体系和质量体系;为了建立和维持标准化的标识体系、质量体系,必须要建立具有权威性的管理机构。

  (5)出版机构。数据出版社是进行数据出版公开出版发行的机构,由于数据出版对象是数据,数据出版社除了具备传统出版社的能力外,还需要拥有比较强的数据存储和管理能力,包括存储数据库、平台系统等。

  (6)数据阅读器。专用设备或软件系统对出版的数据进行持久阅读。出版的数据往往规模比较大,需要专门的阅读器,机读数据阅读器实际上是一个软件,供使用者开发或上载数据应用程序,实现对数据的使用。

  (7)数据使用监管。对使用已出版数据的合法合规性、安全性和规范性等进行监督管理,预防对己出版数据的侵权行为,规范出版数据使用方法和方式,对侵权行为设立等级,各相关部门根据侵权等级给予惩处,提高出版数据使用的合法合规性和安全性。

  采用图1的数据出版体系进行数据出版时,对现有科学数据出版范围进行了拓宽。不论该数据是否为科学数据,只要符合相关数据出版法律法规,原则上只要是数据拥有者希望对数据进行出版的,都可以将数据提交给数据出版机构进行出版审核。这就将原有科学数据出版中只能出版科学数据的范围进行了拓宽,也突破了科学数据的作用局限。对于审核通过的数据,在出版发布前,需要到专门的数据权属登记机构进行登记,申请数据版权标识符,获取数据市场流通通行证,从而对数据出版进行专门监管,使得出版数据的市场环境更良好有序。

  结语

  数据出版是保护数据生产者权益的一种可行途径。长期以来,数据出版仅局限在科学数据领域,面对大数据时代对数据出版的要求,科学数据出版的局限性使其无法推广到一般数据出版领域。本文分析了科学数据出版的范围局限、作用局限、约束局限、渠道局限和监管局限,提出了可出版数据应该满足数据权属能够确定、数据内容无害、数据标准规范、数据质量优良、数据可读性及阅读器等条件。数据出版意味着数据内容的公开,所有人都可以看到数据,也可以使用这些数据,这就需要建立完善的数据出版体系来保护数据所有者权益,本文提出一套数据出版的可行方法,对数据出版体系进行了初步探索。

  后续工作重点研究内容主要包括以下几方面。研究数据出版审核政策及可操作性方案。拟出版的数据都需要提交数据出版机构进行出版审核,只有通过审核的数据才具备出版资格,这使得数据出版审核政策的合规合理性及可操作性显得尤为重要。需要对包括数据合法合规性、存储机制、数据引用规范、元数据标准、数据质量要求、评审机制等做进一步深入研究,形成可操作的数据审核政策方案。

  研究数据权属登记管理机制。为使数据出版市场环境有序健康运行,需要专门的数据权属登记管理机构负责对出版发行的数据进行登记、监管,并建立一套行之有效的数据权属登记管理机制,对流通标准、版权标识、数据使用监管、数据引用规范等进行深入研究。

  研究数据阅读器的功能实现。数据阅读器是使用者对出版的数据进行分析、使用的有效工具,由于数据规模较大,需要专门的机读阅读器来实现对出版数据的阅读和使用,而出版的数据形态、类型多样且复杂,因此需要专门对数据阅读器的各项功能实现开展深入研究。

  参考文献:

  [1]Penev L,Chavan V,Hagedorn G,et al.Pensoft data publishing policies and guidelines for Biodiversity Data[R].2011.

  [2]Data Publishing[EB/OL].[2020-04-15].https://en.wikipedia.org/wiki/Data_publishing.

  [3]Cinkosky•M.J,Fickett•J.W,Gilna P,et al.Electronic data publishing and GenBank[J].Science,1991,252(5010):1273-1277.

  [4]Klump J,Bertelmann R,Brase J,et al.Data publication in the open access initiative[J].Data Science Journal,2006,5(15):79-83.

  [5]朱扬勇,熊贇,廖志成,等.数据自治开放模式[J].大数据,2018(2):3-13.

  [6]吴立宗,王亮绪,南卓铜,等.科学数据出版现状及其体系框架[J].遥感技术与应用,2013(3):383-390.

  [7]National Research Council.Earth observations from space:The first 50 years of scientific achievements[M].Washington,DC:The National Academies Press,2008:6.

  [8]Lawrence B,Jones C,Matthews B,et al.Citation and peer review of data:Moving towards formal data publication[J].International Journal of Digital Curation,2011,6(2):4-37.

  [9]OPEN ACCESS.Berlin Declaration on Open Access to Knowledge in the Sciences and Humanities[EB/OL].[2019-11-23].https://openaccess.mpg.de/Berlin-Declaration.

  [10]OECD.Science,Technology and Innovation for the 21 st Century.Meeting of the OECD Committee for Scientific and Technological Policy at Ministerial Level,29-30 January 2004-Final Communique[EB/OL].[2019-11-23].http://www.oecd.org/newsroom/sciencetechnologyandinnovationforthe21stcenturymeetingoftheoecdcommitteeforscientificandtechnologicalpolicyatministeriallevel29-30january2004-finalcommunique.htm.

  [11]Organisation for Economic Co-operation and Development.OECD principles and guidelines for access to research data from public funding[EB/OL].[2019-11-23].http://www.oecd.org/sti/inno/38500813.pdf.

  [12]Swan A.Policy guidelines for the development and promotion of open access[M].Paris:UNESCO,2012:13.

  [13]Science Europe.Science Europe Principles on Open Access to ResearchPublications[EB/OL].[2019-11-23].https://www.scienceeurope.org/media/4kxhtct2/se_poa_pos_statement_web_final_20150617.pdf.

  [14]Nature.Reporting standards and availability of data,materials,code and protocols[EB/OL].[2019-11-23].https://www.nature.com/nature-research/editorial-policies/reporting-standards#availability-of-data.

  [15]Roberts D,Moritz T.A framework for publishing primary biodiversity data[J].BMC bioinformatics,2011,12(Suppl15):l1.

  [16]Chavan V,Penev L.The data paper:a mechanism to incentivize data publishing in biodiversity science[J].BMC bioinformatics,2011,12(Suppl 15):S2.

  [17]ISO.ISO 26324:201 2(en)Information and documentation-Digital Object Identifier System[EB/OL].[2019-11-23].https://www.iso.org/obp/ui/#iso:std:iso:26324:ed-1:v1:en.

  [18]DOI.International DOI Foundation[EB/OL].[2019-11-23].http://www.doi.org.

  [19]朱扬勇,叶雅珍.从数据的属性看数据资产[J].大数据,2018(6):65-76.

  [20]王丹丹.科学数据规范引用关键问题探析[J].图书情报工作,2015(8):42-47,53.

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号