【摘 要】[目的/意义]科学数据出版模式是推进科学数据共享的新的有效措施之一。由于科学数据的快速发展、技术应用的日渐普及,使得科学数据出版的方式、途径呈现多种多样,到目前仍尚未形成成熟的科学数据出版模式。而且,现有一些相关研究成果并没有过多关注科学数据出版的实施效果、出版服务、资源质量等关键问题。关注数据服务将是科学数据出版的最终目的。[方法/过程]论文采取文献分析法首先归类分析了目前存在的几种科学数据出版模式的优缺点,注意到这些科学数据出版模式普遍缺少服务环节的重视。[结果/结论]论文从科学数据服务视角总结和分析了科学数据出版的4种模式:产品传递模式、交流互动模式、问题解决模式和知识服务模式。期望能够引起对科学数据出版用户服务的重视,能对建立面向用户服务的科学数据出版体系起到参考作用。
【关键词】科学数据;科学数据出版;出版模式;数据共享;科学数据服务
0 引言
最初的科学数据出版主要是出于学术诚信问题考虑,为了防止科研数据造假,保证学术论文结论与数据的可再现性以及数据被复用[1]。国内外一些有影响力的学术期刊出版机构都要求作者将与论文相关的原始科学数据进行提交和出版,或将数据存储到指定的专业或者公共数据中心,或要求将数据以附件形式提交,数据起到可证伪性作用[2]。但是近几年,随着科技的飞速发展,海量科学数据激增,科研活动呈现出明显的大科学、定量化研究特点,跨地域、跨学科、跨流程的科研协作方式逐渐成为主流。新范式(数据密集型)下的科学发现和知识创造越来越依赖于海量的、系统的、高可信度的科学数据,科学数据已不仅仅是被研究的对象,而逐渐成为科研活动的主要产品。在此情形下,科学数据出版日渐受到重视,并成为促进科学数据共享一种新的有效方式之一,得到科学数据共享领域和出版界的高度重视。
可以说,科学数据出版是沿着两条线路发展:一种是传统学术出版机构为主的科学数据出版的不断完善、更新,另一种是科学数据共享领域对科学数据出版的创新应用。从发展趋势看,科学数据出版正在从一个基于传统出版约束环境的以出版机构为核心的相对封闭的狭义科学数据出版扩展到科学领域多元主体的开放的科学数据出版方式。
但同时也注意到,由于科学数据的快速发展、技术应用的日渐普及,使得科学数据出版的方式、途径呈现多种多样,到目前仍未形成成熟的科学数据出版模式。在此方面,多数学者也主要是就科学数据出版的概念界定[1,3]、出版模式分类[4-5]、优缺点比较[6-7]、关键问题剖析[8]等进行研究,并没有过多关注科学数据出版的服务效果、出版服务方式、资源质量等关键问题。为此,本文将结合目前科学数据出版实践及相关研究成果就科学数据出版模式进行深入分析,以期为我国科学数据出版实施起到参考作用。
1 现有科学数据出版模式研究现状
1.1 现有科学数据出版模式文献研究综述
目前针对科学数据出版模式的研究并不多,相关研究多是从不同视角来对各种现存的科学数据出版模式进行归纳、比较分析。表1对众多相关文献进行了梳理。
表1 现有科学数据出版模式文献研究整理
序号 | 作者 | 分析视角 | 出版模式分类 | 分析侧重点 | 备注 |
1 | 张恬、刘凤红[5] | 出版主体 | 政府机构与资助主体、出版商/出版者、数据存储库、数据管理平台 | 数据出版 | 三种 |
2 | 张小强等[9] | 出版主体 | 自上而下、横纵联合、自下而上方式 | 数据管理与出版动力 | 三种 |
3 | 李红星等[10] | 出版主体 | 联合出版模式 | 主体合作关系 | 一种 |
4 | 张小强等[9] | 数据管理与存储主体 | 出版机构控制模式、非出版机构独立控制模式、混合模式、“二次出版冶模式 | 对数据控制方式 | 四种 |
5 | 张静蓓等[11] | 数据出版客体 | 数据独立出版、数据论文出版、合作出版、期刊自行出版 | 数据形态 | 四种 |
6 | 黄国彬[4] | 数据出版客体 | 集成出版与独立出版 | 数据集描述、质量控制、出版成本等 | 两种 |
7 | Lawrence等[12] | 出版客体 | 独立数据出版、学术论文辅助数据出版、附录数据出版、期刊数据档案出版、数据论文出版 | 数据形态 | 五种 |
8 | 何琳等[12] | 客体存放位置 | 数据仓储、机构库、期刊自行负责 | 存放位置 | 三种 |
9 | 雷秋雨等[7] | 数据期刊出版方式 | 出版数据文章为特征、以整合出版为特征、数据作为补充资料出版 | 数据期刊 | 三种 |
10 | 王丹丹[13]、张小强等[9]、何琳等[14]、马建玲[15] | 数据与论文的联系 | 数据附属于出版物、独立的数据出版、出版物附属于数据 | 论文出版物 | 三种 |
从表1看到,多数文献主要是通过科学数据出版的主、客体方式来界定、分类科学数据出版模式,也多是进行简单划分。许多理论难点及实践中遇到的问题尚未解决,尤其就科学数据出版模式中元数据描述、服务途径、服务方式、质量控制等关键要素深入分析不够。较多的文献还主要从期刊学术出版领域分析科学数据出版模式较多,从科学数据共享视角考虑的不多。这也说明目前在科学数据共享领域采取科学数据出版仍处于探索阶段。
从众多文献研究看,目前无论学术出版领域还是科学数据共享领域都尚未形成成熟、稳定的科学数据出版模式。这除了科学数据出版系统本身的复杂性原因外,因信息技术和外部环境的快速变化,使得科学数据出版也在不断发生变化。不同的科研资助组织、期刊出版商、学术机构都在不断尝试采取新的、不同的科学数据出版方式。
1.2 目前科学数据出版模式的归纳分析
从文献研究看,不同作者因其研究范围、分析视角和研究目的不同,对科学数据出版模式的划分差别很大,划分依据也不很明确。仅从数据出版主体或者仅看数据本身出版形态来划分并不能准确揭示科学数据出版方式的复杂性,还需要结合数据出版主客体关系进一步分析。
本文基于对目前众多科学数据出版中相关实践和文献研究的梳理,考虑科学数据出版发展趋势,归纳出两类九种科学数据出版模式。详见表2。
表2 各种科学数据出版模式分类
序号 | 分类数据 | 出版模式 | 定义 | 优势 | 局限性 | 举例 |
1 | A独立出版模式 | A1数据仓储(数据中心)模式 | 接近于传统的数据共享,对数据及相关信息进行评审相对较统一,不存在分类情况 | 是指由专业或公共的数据中心面向科研人员承担其提供的科学数据的收集、存储、保存和出版 | 缺乏期刊出版的丰富经验、用户资源及营销能力,质量控制不明确 | Zenodo平台 |
2 | A2数据知识库模式 | 将科学数据存储在诸如科研院所机构内部的机构数据库中,面向内部科研人员以及参与本机构项目的外部科研人员提供数据服务 | 多在系统内使用,手续简便;产权明确,使用方便;专业聚焦;统一标准,便于引用 | 发表的科学数据使用范围有限;数据保存期限有一定的限制;数据量较少 | Pryad平台 | |
3 | A3数据期刊模式 | 是指以数据论文的形式采用数据期刊出版科学数据,将其作为独立的学术成果 | 利用元数据详细描述数据集,有助于数据检索,保证了数据可复用,可被方便地查询和引用 | 同行评议难度大;获取原始数据受链接稳定性影响;发表的是元数据而非原始数据本身 | ESSD | |
4 | A4纸质文献的数字化独立出版模式 | 利用数据挖掘技术的应用使过去一些固化在纸质文献(如学术论文、专利文献、科技报告等)中的研究要素能够通过数字化加工,拆解、整合,成为一项重要的科学研究的数据资源,以此进行数据出版 | 有明确的服务目标;形成较成熟的商业模式;核心出版主体较单一,承担大部分出版流程 | 前期投入大;服务领域有限;技术能力要求强 | 爱思唯尔的在线医学信息资源平台 | |
5 | A5个人独立出版模式 | 研究者个人对其数据上传到网站或系统发布 | 作者不再受限于文章格式;发表灵活,自主 | 数量少,知识产权争议;格式繁杂,不统一;缺支撑环境 | ANDS网站 | |
6 | B关联(集成)出版模式 | B1数据包含在传统论文中 | 传统学术论文出版时对一些需要数据支持的结论,要求这些数据(包括大量原始数据集、数据处理代码及软件等)作为论文补充,一并提交 | 在学术论文中嵌入和集成数据,保证使用论文时引用或检索到相关 | 数据数据存储难度大;数据不易检索、复用 | Bioinformatics期刊 |
7 | B2传统论文中的附件数据文件 | 支撑学术论文的原始数据要求以论文附件形式随论文一起发表 | 数据集与出版物相互链接;元数据保存在专门存储中心;通过元数据或论文链接找到原始数据,保证可检索 | 一般对数据大小有限制;数据保存成本较高,不稳定;数据检索依赖于相应论文,而非数据集查询;引用受限 |
Ecological Archives |
|
8 | B3传统论文与数据仓储中心联合出版 | 需要数据随着期刊论文出版,正如把论文提交给期刊一样,作者负责提交数据给数据仓储中心 | 要求由存放相关数据在指定的公共信息库,这些数据库中的数据的ID识别码被添加到期刊手稿和参考中,并往往附带着文章文本,以及脚注或引用列表 | 应用程序通常只用于文章内的数据 | NCBI的Genbank | |
9 | B4数据论文与仓储联合出版 | 数据集作为论文的主题(数据论文)深入详细的描述数据的收集的理由和方法,但没有任何分析或结论。与传统的学术论文一样,数据论文编撰成册,可以形成数据期刊、数据论文集、数据图书等 | 为作者提升信用,能够引用和重用 | 数据集和它们的描述的同行审查标准参差不齐 | 《中国科学数据》 |
其中,“独立数据出版冶主要指数据出版主体将科学数据独立于其他任何文件发布,即:将数据或描述数据的元数据信息独立出版,不再依附于原来学术论文[11]。这种出版模式类似过去的科学数据共享方式。但有明显的区别,就是科学数据出版过程包含着对数据及相关信息的把关、筛选过程[9]。
根据科学数据出版流程,可将独立科学数据出版模式划分五种:A1数据仓储(数据中心)模式、A2数据知识库模式、A3数据期刊模式、A4纸质文献的数字化独立出版模式和A5个人独立出版模式。
而“关联(集成)数据出版冶是指学术论文与科学数据关联(集成)出版的模式,这包括两方面,一种是传统期刊出版商推动的科学数据出版中学术论文和数据之间的关联关系;另一方面是指新的数据期刊与数据实体之间的集成关系,后者是随着信息网络的广泛应用和由数据驱动的第四范式科研环境的影响,逐渐受到重视[4]。
目前看,这种联合(集成)出版模式仍主要以期刊出版机构为核心来推动出版科学数据,作者根据期刊出版商的数据出版政策要求将论文相关数据提交到指定的(或推荐的)专业或公共数据仓储中心。
根据科学数据出版主体相互关系及数据存储形态的不同,可将关联(集成)出版模式分为:B1传统论文中的数据包含在传统的出版物、B2传统论文中的附件数据文件、B3传统论文与数据仓储中心联合出版、B4数据论文与数据仓储中心联合出版四种模式。
1.3 现有科学数据出版模式的总结
根据以上分类方式对现有一些科学数据出版模式进行归类分析,发现各个学者总结和提炼的科学数据出版模式和结论差别很大,但多停留在实践问题的汇总分析方面。在对科学数据出版的构成要素、形式特征、运行机制等方面尚需进一步系统、深入的剖析。比如,张静蓓等学者对多种科学数据出版模式分析比较细致[4],但也仅笼统地对各个出版模式的优缺点进行比较分析,尚未深入到各种出版模式下数据服务利用流程、数据集描述、质量保证等一些关键问题。
本文在张静蓓等学者的分析比较基础上进行更详细的比较分析。表3中整理了各种科学数据出版模式的比较。
表3 几种科学数据出版模式的比较分析
分类 | 数据出版模式 | 核心主体 | 覆盖范围 | 数据规范性 | 数据质量 | 数据格式 | 数据稳定性 | 数据描述方式 | 质量审核主体 | 质量审核对象 | 收费标准 | 费用承担者 |
A独立出版模式 | A1数据仓储(数据中心)模式 | 数据仓储(数据中心) | 特定行业领域或主题 | 强 | 较高 | 非常严格 | 很强 | 结构化 | 中心工作人员 | 数据集、元数据 | 各有不同,有些免费 | 项目承担者或中心 |
A2数据知识库模式 | 科研机构或高校 | 本机构内容 | 较强 | 较高 | 不严格 | 一般 | 结构化 | 工作人员 | 数据集、元数据 | 各有不同,有些免费 | 项目负责人或作者 | |
A3数据期刊模式 | 数据期刊出版商 | 不限 | 强 | 高 | 严格 | 强 | 半结构化 | 编辑、同行评审专家 | 元数据 | 按篇收费 | 作者 | |
A4纸质文献的数字化独立出版模式 | 传统大的期刊出版商 | 特定主题 | 较弱 | 很高 | 严格 | 较强 | 半结构化 | 编辑 | 数据集 | 按项目、次数收费 | 用户 | |
A5个人独立出版模式 | 个人 | 不限 | 弱 | 弱 | 不严格 | 弱 | 非结构化 | 个人 | 数据集 | 不确定 | 不确定 | |
B关联(集成)出版模式 | B1传统论文中的数据 | 传统期刊出版商 | 与论文相关 | 弱 | 弱 | 不严格 | 一般 | 非结构化 | 编辑、同行评审专家 | 论文、数据集 | 无 | 无 |
B2传统论文中的附件数据文件 | 传统期刊出版商 | 与论文相关 | 弱 | 弱 | 不严格 | 弱 | 非结构化 | 编辑、同行评审专家 | 论文、数据集 | 无 | 无 | |
B3传统论文与数据仓储中心联合出版 | 传统期刊出版商、数据仓储中心 | 不限 | 较强 | 较高 | 严格 | 强 | 结构化 | 编辑、同行评审专家、工作人员 | 论文、数据集、元数据 | 按资助方式决定或免费 | 作者或期刊 | |
B4数据论文与数据仓储中心联合出版 | 数据期刊出版商、数据仓储中心 | 不限 | 较强 | 高 | 严格 | 强 | 结构化 | 编辑、同行评审专家、工作人员 | 论文、数据集、元数据 | 按资助方式决定或免费 | 作者 |
从表3中看到,尽管可以从各个数据出版模式的关键环节进行对比分析,但对于科学数据出版模式的具体运行过程及数据利用服务的研究和关注仍然较少。从科学数据利用视角看,目前几种科学数据出版模式的数据参与度和复用率双低的问题仍非常突出,并且随着数据规模的迅速扩大而愈加突出[11]。而且,科学数据出版实践中存在明显的“两头冷,中间热冶的“橄榄型冶现象,即:作者和使用者的反映并不积极,而期刊出版商和数据仓储中心则更热心,在努力积极推动着科学数据出版。可以说,目前科学数据出版模式尚未充分考虑科学数据出版服务对象诉求,这既包括科学数据使用者的数据需求和要求,也包括了对科学数据作者提供相关的投稿服务要求。因此,完整、有效的科学数据出版模式应充分考虑科学数据出版整个业务生命周期中各个主客体之间形成的对科学数据出版途径、形态、机制等。
上述问题在一定程度上主要是由于快速发展的科学数据共享环境使得科学数据出版的主客体要素不断加入,主客体关系也在不断调整,也使得科学数据出版服务路径并不明确,也影响科学数据出版模式的认识理解。
2 面向用户服务的科学数据出版模式思考
2.1 科学数据出版的内涵分析
对“科学数据出版冶概念目前尚没有一个普遍认可的解释。在众多定义中,引用较多的是吴立宗的定义,他从学术出版物出版角度认为科学数据出版是将“数据冶形式上看成与学术论文相同的学术出版物(或学术成果),借助传统出版体系中学术出版物引用、评价体系实现对“数据冶成果的认可、确定,以此鼓励科研人员参与科学数据出版[16]。
另外,也有从科学数据共享领域来认识,黎建辉等认为科学数据出版作为一种创新的科学共享数据方式,是指通过“数据提交、同行审议、数据发布和数据永久存储、数据引用和数据影响评价冶等环节实现数据(或数据产品)及其描述信息的发表,以帮助用户便捷地发现、获取、理解和再分析利用数据[17]。
从这些定义看到,科学数据出版与传统学术出版明显不同的是:后者更多的是一种“可见即可得冶的信息服务方式,而科学数据出版仅是通过描述数据集(数据实体)来描述信息的发布,数据集(数据实体)还存放指定的专业数据存储中心。其数据服务并不单单是数据实体信息的“可见可得冶,而是建立关联,从其元数据相关信息链接获得数据实体。数据服务其实是封装了科学数据出版主体相关的关键数据实体的相关操作,包括:数据链接的有效性保证可以获得数据实体、数据质量的可靠性使得数据可以利用、数据解析的可读性方便用户理解使用数据、数据获得的有用性以满足用户的真实需求。这对科学数据出版机制、流程、质量控制、软件工具等都提出较高的要求。因此,科学数据出版的服务效果最终取决于数据论文的质量以及存放数据实体的数据中心的资源及服务质量两方面。
如果从数据服务视角看,科学数据出版是指使数据可以自由访问,在互联网上永久可用,且具有与数据相关的可靠性、格式和内容等相关信息,以便发现和重复使用[12]。从这个定义看,科学数据出版数据服务活动是以数据使用者有效利用为导向、以各类出版主体间协调合作为纽带、以数据及其描述信息内容为基础,以过程质量控制为保障的学术传播活动。据此对这些构成要素、形式特征、要素联系、运行机制等的描述,可以构成一种模式。它强调了科学数据出版主体之间、主体与客体之间,以及与外部环境要素之间必须相互协调、合作,积极应对科学数据用户的需求,提供能够与需求相匹配的数据资源,并完成筛选、匹配。同时,这种供需匹配关系在经历主客体之间长期磨合过程中才能达成一定的利益平衡,形成一种相对稳定、有序的科学数据出版模式结构。
而且,科学数据出版的数据资源只有被用户获得并利用,才能发挥科学数据的潜在价值。而科学数据的可获得性既取决于科学数据出版主体之间的信任、理解、成本收益、流程效率,还取决于科学数据资源客体的技术规范、标准、存储便利性等。
为此,需要清楚认识科学数据出版中的主客体关系,才能更好理解科学数据出版模型。
2.2 科学数据出版中用户服务方式分析
科学数据出版中主客体关系是影响科学数据出版用户服务方式的最重要的因素之一。根据不同类型的科学数据资源特征,不同利益主体在科学数据出版环节中的地位、作用、利益诉求、影响力等不同,使得科学数据出版主客体之间关系截然不同,对用户产生的科学数据服务效果差异很大。本文结合以上几种科学数据出版模式,总结科学数据出版主客体关系,整理如表4所示。
表4 用户服务视角下科学数据出版主客体关系
序号 | 主客体关系 | 定义 | 核心主体 | 数据服务途径 | 用户服务效果 | 备注 |
1 | 内容-出版关系 | 期刊出版商按照纸质期刊出版方式独立承担数据收集、加工、维护及出版等 | 期刊出版机构 | 数据投递方式 | 取决于期刊编辑经验和对用户需求的理解。用户被动接受数据产品 | 期刊出版机构自身的业务能力和出版质量要求将直接影响科学数据出版的质量水平 |
2 | 平台-自助关系 | 传统科学数据共享服务方式,由数据中心建立平台收集、存储、发布数据,用户自助筛选需要数据 | 数据中心 | 数据自取方式 | 取决于平台数据维护服务水平,以及用户信息处理能力。可自主选择需要数据 | 有相对固定的服务流程。但数据中心的质控体系及营销能力等相对较弱,差异较大,提供数据资源质量、数据服务质量参差不齐。用户数据处理能力也影响服务效果 |
3 | 合作-共享关系 | 期刊出版商和数据中心合作出版方式 | 期刊出版机构、数据中心 | 数据检索方式 | 分工明确,优势互补,降低了数据出版成本,提高效率。部分解决了数据质量问题 | 数据中心和期刊出版机构之间数据信息的链接及兼容互操作问题,一旦出现诸如系统升级、维护等将会导致难以及时获取到相关原始数据集及元数据信息 |
4 | 互动-交流关系 | 通过网络互动软件工具加强和作者、用户之间的信息沟通,使在数据出版前就能够根据用户需求选择、加工数据资源进行出版 | 期刊出版机构、数据中心、作者、用户、评审专家等 | 数据互动服务方式,满足个性化需求 | 通过数据提供者与用户的充分互动交流,掌握和筛选出用户需要的个性化、订制式的数据资源,而使数据资源充分利用,得到增值科 | 学数据出版服务内容比较复杂,对数据提供者和用户的要求比较高。尽管其中期刊出版机构的影响力有所减弱,但通过效率提高使得科学数据出版收益更明显 |
2.3 数据服务视角下科学数据出版模式总结
基于以上主客体关系认识,本文结合实践调研分析,借鉴信息服务模式相关研究,从数据服务视角将现有科学数据出版模式总结为以下几种:
2.3.1 产品传递模式
产品传递模式描述的是源于客体资源(数据实体及其元数据描述资源等)并以出版物产品为中心的科学数据出版服务过程,主要以数据出版主体(期刊出版商或数据中心)为核心中介,通过对数据资源进行加工或建立等,形成科学数据论文等数据出版物,并以某种出版策略提供给用户使用。这是一种传统的出版模式,延续了传统文献出版的流程。只不过完成了从印刷版到数字版或网络版的过渡。目前的在线模式只是在尝试复制离线模式而已,科学数据出版交流仍然遵循着同样的过程和工作流程,采用相同的模型和学术评价体系。像现在常见的几种出版模式基本上都是这一模式下的运行方式。
这种模式中期刊出版商或数据中心等起到了承上启下的核心作用,从数据资源筛选、组织编辑、质量评审、引用标识、评价反馈等发挥关键作用,保证了数据论文的质量。
产品传递模式强调科学数据出版产品的过程管理,但忽视了数据使用者的特定服务需求和用户的反馈等能动性及数据使用情况,无法体现出科学数据共享的最终目标。
2.3.2 交流互动模式
交流互动模式强调了对数据使用者需求的重视,并以此确定科学数据出版的方式和内容。这种模式仍然是以学术期刊出版商或数据中心等数据出版主体来驱动的,主要根据用户的数据资源需要,以某种服务策略(或出版形式)生产数据出版产品(不仅仅限于数据论文,还包括其它科研活动研究要素)并提供给用户,以此提高出版物的使用率。这种模式打破传统文献出版的单向“传播冶模式,借助于互联网中一些互动性强的社交软件(如Facebook、微信等)的广泛应用,实现作者与用户之间、出版商与用户之间、作者和出版商之间的双向互动“交流冶,使科学数据出版由“封闭冶走向“开放冶方式。
目前众多科技期刊出版商都已开通各种社交账号,借助博客/微信公众号、在线社区、问答服务空间等平台提供多种互动交流方式,除了起到更方便传播数据出版内容外,更主要是以此收集、交流关于科学数据出版的内容、服务策略、服务质量等反馈信息,有助于加强科学数据出版诸多主体(如用户、作者、编辑、出版商等)之间实时、互动交流、信息沟通、学术分享的渠道。同时,用户也可通过参与给数据论文、作者观点等添加“社会化标签冶、保存及分类并与他人分享,有助于根据用户需求筛选、出版科学数据,提高数据论文的使用和引用率,并进一步扩展学术传播范围[20]。
另一种交流互动模式是借鉴了维基百科模式,应用于科学数据出版领域,如生命科学领域的Wikigenes网站允许用户对网站中文章进行修改,也可对其他相应学术贡献者进行评价。通过这种贡献评价机制,重视科学交流的开放性和互动性,提升了用户的参与积极性[21]。
这种科学数据出版模式是随着网络技术的普及,已逐渐被各个出版机构所采用。但这种方式还是依托传统科学数据出版模式,仍是固化形成的基于一种统一规范化、标准的出版方式,只不过在具体服务内容、服务方式方面根据用户意见进行调整。而且这种科学数据出版模式多针对的是各个科研用户个体而言。
2.3.3 问题解决模式
问题解决模式是以用户问题解决为最终目的的科学数据出版模式,强调的是用户导向性,以问题为中心的服务过程[18]。主要针对一些科研学术机构、企业的科研项目、大型科研活动等科研数据需求提供的一种针对性的服务模式。其服务针对的是一些机构用户当前面临着有待解决的实际问题并要寻求合适的数据服务的帮助,以期望得到数据产品支撑所遇到问题的最终解决。
一些期刊出版商或数据中心通过采取长期的、连续的定向化、专题化数据出版方式,对数据资源和数据出版产品进行专题加工生产,形成有针对性的数据出版物服务产品,并采取适当的商业策略把数据产品提供给目标用户,帮助其解决实际问题。
这种模式与之前的“交流互动模式冶不同,问题解决模式主要以用户有待解决的问题为依据。面对的是机构组织、项目组或大型科研组织层面展开服务。从目前科学数据出版实践看,已经有机构开始进行这方面的尝试,而且商业化服务策略比较成功,比如,汤姆森路透在医药研发、生物信息等领域加工、整理出来的数据资源满足了全世界众多医药研发企业、生物医学科研机构的专题化数据资源需求,取得可观的商业收益。
这种科学数据出版模式对我国众多科学数据共享中心进行科学数据出版具有很好的启示。在过去,国内一些科学数据共享中心侧重于科学数据的收集和存贮,过多强调了国家财政支持的科研项目产生的科学数据资源的强制提交,数据的开放共享也没有一个有效的数据版权确认机制,使收缴上来的科学数据资源质量参差不齐,进一步影响数据服务和使用,这成为制约科学数据共享的瓶颈问题。而采取科学数据出版模式将为科学数据服务共享提供新的机制、新的途径,有助于深入推进、解决目前科学数据共享中一些关键性的瓶颈问题,如数据共享与激励之间、数据开放与数据安全之间、数据利用与数据产权保护之间等瓶颈问题。为此,各个数据共享中心应积极落实2018年国家新颁布的《科学数据管理办法》中推进科学数据出版的要求。一方面,从数据出版的角度,调整和完善科学数据管理机制,面向各个学科领域的世界级公共数据仓储中心和高水平的期刊出版商加强合作和联合,加速科学数据出版发展,使成为具有领域、行业中有学术影响力的科学数据中心。另一方面,紧密围绕国家科技创新战略规划,针对国家重大科研项目或工程中的科研问题和需求导向,定期开展专题、专项的科学数据出版服务工作。
2.3.4 知识服务模式
随着信息技术和大数据的广泛应用,数据挖掘、知识关联等软件工具已实现大量文献与数据之间、科学数据与其他数据之间的资源融合和知识点关联,从而能为用户提供更有数据价值的知识发现或者数据挖掘结论。科学数据出版的这种知识服务模式一方面使得通过计算机算法等进一步改进传统科学数据出版的成果发布形式,为用户提供更加高效、方便的知识发现(而不是数据提供),另一方面也使得科学数据出版服务方式发生巨大的改变。
所谓知识服务模式是指借助于元数据、语义出版、富媒体出版技术等对文献、科学数据资源进行元数据加工、语义标注、知识关联等旨在增强数据资源的语义,使其能借助于计算机来识别、获取、相互关联而获取有用的数据知识的科学数据出版模式。或者称之为不同数据之间根据关键知识点相互融合、相互集成的全新出版形式。其价值在于提升对海量科学数据的识别、利用的效率,减轻用户对超载数据消化吸收的压力,而且借助于计算机可视化等方式将数据结果更好展示出来。
在这方面,国外知名期刊出版机构积极探索各种知识服务方式,比如汤姆森路透和爱思唯尔等积极探索新的知识信息服务体系,将过去一些固化在纸质文献中的有研究价值的研究方法、材料、实验数据等诸多研究要素借助于信息技术(如汤森路透的自动语义标引软件Open Calais)通过数字化加工,拆解、整合,成为一项重要的科学研究的数据资源[22]。通过知识挖掘、知识链接方式来对某一主题、项目提供智能化的研究要素的服务。
这是因为科学数据出版其实是一种对数据描述信息(即元数据)的出版。当海量科学数据出版后将形成巨大的元数据资源,这为实现不同数据资源之间的结构化描述、元数据互操作、语义出版等提供基础,实现这些资源之间丰富的、多层次的、自适应的相互关联。这种关联包括了文献与数据资源之间、期刊与期刊、知识单元之间、科学数据与外源数据之间的关联,从而使科学数据出版呈现一个开放、关联的学术传播生态系统,为用户检索和利用提供很大的便利。
总之,从科学数据出版发展趋势看,本文认为问题解决模式有利于目前我国科学数据共享中心进行科学数据出版服务活动的开展和积极的数据利用成效的取得。知识服务模式将是未来科学数据出版发展方向。当然,产品传递模式和交流互动模式不会消失,符合目前我国科学数据出版发展现阶段的实际情况,但其范围内的许多服务项目应逐步转入问题解决模式。尤其在大数据环境下,基于知识服务模式的科技文献与科学数据资源融合、科学数据与其它大数据资源之间数据互通会越来越频繁,数量也会越来越多,需要高度关注。这将是未来科学数据出版发展的最重要数据出版模式。
3 结束语
科学数据出版,作为一种新的科学数据共享举措,已从期刊出版商驱动的传统科学数据出版拓展到科研领域众多主体协同合作共同推动科学数据出版方式,将进一步促进科学数据的开放共享与再利用、增加科学数据的复用价值。在这一过程中,由于科学数据共享的复杂性,科学数据出版必将在快速发展中面临一些新的问题和挑战,也将出现新的数据出版生态体系。本文仅从数据服务视角关注科学数据出版主客体之间相互关联总结出四种新的服务模式。相信在今后不断发展环境下,新要素不断加入,在不同视角下也将产生新的科学数据出版模式。
参考文献
[1]伏安娜,张计龙,殷沈琴.数据论文国内外发展研究综述[J].图书情报工作,2015,59(24):131-138.
[2]袁曦临.E-science环境下学术规范的新领域:科学数据[J].甘肃社会科学,2014(3):85-88
[3]屈宝强,王凯.数据论文的出现与发展[J].图书与情报,2015(5):1-8.
[4]黄国彬,王舒,屈亚杰.科学数据出版模式比较研究[J].大学图书馆学报,2018,36(1):34-40,33.
[5]张恬,刘凤红.数据出版新进展[J].中国科技期刊研究,2018,29(5):453-459.
[6]陈全平.学术期刊数据政策及相关研究[J].图书与情报,2015(5):9-15.
[7]雷秋雨,马建玲.学术期刊数据出版政策研究综述——以JCR中进化生物学领域期刊为例[J].图书馆理论与实践,2016(1):30-34.
[8]涂志芳.科学数据出版的基础问题综述与关键问题识别[J].图书馆,2018(6):86-92,100.
[9]张小强,李欣.数据出版理论与实践关键问题[J].中国科技期刊研究,2015,26(8):813-821
[10]李红星,吴立宗,南卓铜,等.科学数据联合出版模式与内容研究[J].遥感技术与应用,2016,31(4):801-808.
[11]张静蓓,任树怀.科研数据出版模式、流程及引用策略研究[J].图书情报工作,2015,59(9):21-27.
[12]Lawrence B,Jones C,Matthews B,et al.Citation and peer review of data:Moving towards formal data publication[J].The International Journal of Digitalcuration,2011,2(6):4-37.
[13]王丹丹.科学数据出版过程中的数据质量控制[J].图书情报工作,2015,59(23):124-129.
[14]何琳,常颖聪.国内外科学数据出版研究进展[J].图书情报工作,2014,58(5):104-110.
[15]马建玲,曹月珍,王思丽,等.学术论文与科学数据集成出版研究[J].情报资料工作,2014(2):82-86
[16]吴立宗,王亮绪,南卓铜,等.科学数据出版现状及其体系框架[J].遥感技术与应用,2013,28(3):383-390.
[17]黎建辉,吴超,张丽丽,等.科学数据出版调查与分析[J/OL].中国科学数据,2016,1(1).http://www.csdata.org/paperView?id=9.DOI:10.11922/csdata.120.2015.0009.
[18]陈建龙.信息服务模式研究[J].北京大学学报(哲学社会科学版),2003(3):124-132
[19]PLoS Hub for Clinical Trials[EB/OL].(2011-02-10).http://clinicaltrials.ploshubs.org/home.Action
[20]ACS Network[EB/OL].(2011-02-10).https://communities.acs.org/welcome
[21]Robert Hoffmann(2008).A wiki for the life sciences where authorship matters[J].Nature Genetics40,1047–1051.doi:10.1038/ng.f.217
[22]徐丽芳,丛挺.数据密集、语义、可视化与互动出版:全球科技出版发展趋势研究[J].出版科学,2012,20(4):73-80