关键词: 研究要素 开放科学 数据出版 数据论文
作 者:刘凤红、 张恬 中国科学院文献情报中心,北京市中关村北四环西路33号 100190
摘 要:【目的】系统介绍研究要素出版的概念、类型、出版现状和影响力,探讨在开放科学背景下其对学术出版模式的意义和潜在影响。【方法】 通过网络调研法对研究要素出版的概念、类型和出版现状进行了详细调查,采用Web of Science数据分析了研究要素论文的影响力。【结果】 研究要素论文主要关注研究过程中的研究要素,主要包括数据论文、软件论文、材料和方法类论文以及综合类论文。【结论】 研究要素论文作为新兴学术出版类型,为研究要素发表提供了全新的学术平台,更好地契合了开放科学背景下科研交流的需求和模式,但其也存在诸如质量控制机制不健全等不足。
1引言
科技论文作为科研成果的重要载体,遵循特定的结构要求规范。国际医学期刊编辑委员会(International Committee of Medical Journal Editors,简写为ICMJE)推荐的科技与生物医学类论文结构为IMRaD结构。I即Introduction,重点介绍“研究背景和研究问题”;M即Methods,重点介绍采用何种科研手段和方法开展科学研究;R即Results,重点介绍研究结果;D即Discussions,重点介绍研究意义。IMRaD结构基于全套科研流程展开,要求作者在一篇论文中讲述一个完整的科研故事。论文中包含了大量与研究主题相关的学术信息,便于读者全面了解研究背景、研究意图、研究方法、研究结果和研究意义。
IMRaD结构被很多科技期刊认可,是科技论文的主流文献结构模型,但其并非没有局限性。首先,传统论文重点关注科研问题的新颖性和独创性,虽然实验和技术细节是同行评议的重要审查对象之一,但基于论文以科学问题为中心的考虑,传统论文往往对构成科研周期的客观研究要素描述不够。其次,传统论文对作者写作水平有相当高的要求,导致科研人员在论文写作上花费大量时间和精力,间接延长了科研成果的传播时效。再次,传统论文往往倾向于发表阳性结果,而阴性结果、中性结果的实验数据、实验过程数据往往被弃之一隅,无人问津。实际上,这些数据同样蕴含着巨大的科研价值,但却没有合适的发布渠道和途径。
为了充分体现数据的重要性,促进数据开放、共享和重用,提升数据采集和管护人员的学术影响,近年来,国际上多家主流出版社和研究机构创建了数据期刊(如Elsevier出版社创办的Genomics Data,Springer-Nature出版社创办的Scientific Data,Wiley-Blackwell出版社创办的Geoscience Data Journal,中国科学院计算机网络信息中心创办的《中国科学数据》),有的期刊开设了数据论文专栏(如美国生态学会的旗舰期刊Ecology,中国植物学会和中国科学院植物研究所的《植物生态学报》《生物多样性》等)。国内外多位学者对数据论文的起源、内涵、外延、出版流程、质量控制机制、权益规范、意义等做过全面深入的调查与研究。
除科学数据外,一套完整的科研流程会涉及和产生很多其它研究要素,如实验方法、实验材料、代码、软件等。这些研究要素构成了科研活动的客观支撑条件,具有极高的科研价值。但在传统论文里,它们往往湮没在科学问题中,得不到应有的关注。基于此,国际学术出版界的先锋Elsevier出版社推出了一种全新的学术论文出版类型——研究要素论文。为深入阐述这一新兴的出版类型,本文将从概念、类型、现状等几方面对其做系统介绍,并结合开放科学的大背景,探讨其对新型学术出版的意义和潜在影响,以期引发业内同仁关注和思考。
2 研究要素出版的概念、现状和类型
2.1 研究要素出版的概念与现状
研究要素论文作为新兴学术论文出版类型,为研究要素发表提供了全新的学术平台。如果探究其概念,则可概括成%研究要素论文是一种新的基于同行评议的论文类型,它采用简明概括的格式,刊发科研周期中的客观要素,如数据、软件、材料和方法等。在遵循特定版权协议的前提下,这些要素可被重用进而产生新的研究结果,从而激活整个科研循环。
研究要素论文一经推出便广受欢迎,在较短时间内取得了快速发展。自2014年Elsevier启动相关期刊以来,截至2016年12月,已发表了2200篇该类论文,其中2016年发表了1011篇。这其中大约有20:的作者以前从来没有过论文发表经历,投稿作者来自包括欧盟、美国、澳大利亚、加拿大、中国和日本等在内的多个国家和地区(此处数据来自于与Elsevier出版社工作人员的内部交流)。各期刊网站数据显示,数据论文占据的体量最大,涉及到生物学、地学、计算机科学、化学以及经济学、人文社会科学等多个学科领域。
除了骄人的出版数据外,研究要素论文的学术影响力也表现得可圈可点Data is Brief(DIB)、SoftwareX、MethodsX已被Scopus、Web of Knowledge和PubMed等主流学术论文索引系统收录。笔者根据Wwb of science(Wos)的数据进行统计后发现:DIB在2014-2015年发表的356篇论文中,被引总频次126次。 MethodsX在2014-2015年共发表111篇论文,总被引频次153次(无自引),篇均引用次数1.38次/篇,其中有61篇文章被引用至少1次,被引文章比为55%。SoftwareX2015年创刊,当年发表的12篇文章的总被引频次为98次(无自引),篇均引用次数为8.17次/篇,64%的文章被引用至少1次。此外Science Direct与GitHub合作,为原创型软件出版物提供Software Information Dashboard功能,对软件类文章的阅读数据、引用数据和下载数据等进行统计,使读者能够快速评估软件的影响力。SoftwareX是目前享有此项功能的四种出版物之一。
2.2 研究要素出版的类型
目前,研究要素论文主要包含以下几种类型:
(1)数据论文(Data articles)
数据论文是研究要素论文的先驱模式,先于其它类型出现。在数据密集型科研范式下,数据的作用和价值日益受到重视。借助强大的数据分析工具和技术,数据驱动知识发现、数据驱动科研创新正在多个学科成为可能和现实。数据论文使得科学数据的发现和获取进一步成为可能。在Elsevier创立的研究要素论文模式中,数据论文占据着极其重要的地位。从体量上看,它远远多于其它类型。除了刊发常规数据论文的数据期刊外,Elsevier还创立了一本全新的数据期刊:Data in Brief(DIB)。来自丹麦哥本哈根大学的Thomas Cox博士将已存储在ProteomeXchange Consortium(http://proteomecentral. proteomexchange.org/cgi/ GetDataset)上的原始质谱数据写成数据论文发表在了DIB上。他认为,在公共数据存储平台上开放原始数据远达不到数据共享的要求和目的,读者和其它感兴趣的科研人员并不能通过存储平台上简单的元数据描述了解细节信息,而这些信息对于数据重用至关重要。通过数据论文形式,可以将相关信息阐释得更为全面和细致。
值得深入介绍的是,DIB除了刊发未发表数据外,也接受已发表的科技论文中的数据,但作者要为数据提供更为详细的描述和更为全面的背景信息。Elsevier还借助其强大的全文文献ScienceDirect平台,将研究要素论文与原始论文互链,双向提高研究成果被发现和检索的几率(图1)。

图1 论文与数据之间互链图
软件论文描述软件及其科学影响,与在公共库中存储的代码关联。通常而言,人们只将软件视为工具,而不去关注其学术价值。Elsevier创立了专门刊发软件论文的期刊-SoftwareX(https://github.com/ElsevierSoftwareX)。SoftwareX发表开源软件,对软件的科学影响进行同行评议,源代码存储在SoftwareX GitHub上。软件论文可被引用,软件开发人员可因此提升学术信誉。因为创新性和前瞻性,SoftwareX于2016年获得了美国出版家职业与学术出版学会(Professional & Scholarly Publishing Association of American Publishers,简写为PSP-AAP)颁发的期刊出版创新奖(Award for Innovation in Journal Publishing)。因为软件的发展非常迅速,所以SoftwareX允许作者在发表后更新代码,但更新后的代码要提供可以引用的格式和链接。通过在SoftwareX上发表论文,研究者们可以分享开发过程和应用效果,这些细节蕴含着很多信息。
(3)材料和方法论文(Materials and methods articles)
材料和方法论文刊发实验过程中开发和使用的方法以及材料。Elsevier创立了专门刊发此类论文的期刊-MethodsX(https://github.com/ElsevierSoftwareX)。 MethodsX发表所有实验学科的技术细节,采用结构化论文格式,意在让科研群体发现和认识到作者对发展实验方法所做的贡献。来自瑞典卡罗琳学院的Ben Libberton博士在 MethodsX的第1期上发表了一篇方法类论文,他评论到:“在线发表一些小的方法并不是一件新鲜事,有很多网站发布研究方法。但是,大多数情况下,这些方法和过程没有经过同行评议,很难验证,而且也不能通过引用给方法提供者和开发者带来学术信誉”。实际上,研究方法细节的公开对于某些实验学科如生物学和医学领域重复实验非常关键。 MethodsX期刊的出现为刊发实验细节提供了有效平台。可以想见,它的作用将不仅限于此,它还会为推动实验过程透明化、遏制科学不端行为起到积极意义。
(4)综合类论文
上文所述类型都只刊发研究过程中的单一要素,所列期刊也只关注某一要素。还有一种综合类期刊,关注和发布科研过程中涉及的多元要素。牛津大学出版社与华大基因合作出版的GigaScience属于此类期刊(http;//gigascicncc.biomedcentral.com/)。GigaScience关注生命科学和生物医学领域基于数据和客观事实的所有研究要素,包括数据、软件工具和工作流。
另一份与此相关的具有创新和颠覆意义的期刊是苏黎世大学(University of Zurich)创办的Matters(https://www.sciencematters.io/)。“科研故事可以等待,但科学不会(Stories can wait.Science can't.)”,秉承这样的创刊初衷和宗旨,Matters不关注“科研故事”讲述得是否完整,而只关注纯粹的科学单元,即符合科研伦理规范的客观观察结果。Matters允许和鼓励作者和其同行对文章进行扩展和开展后续研究。标准数据、孤立数据、阴性数据、验证数据、矛盾数据都可以在Matters上发表,Matters旨在与作者一起,一段段、一片片共同织造科学网络。
3 研究要素论文结构
“让写作变得简单”是研究要素论文创办的初衷和目的之一。基于此原则,此类论文大多遵循固定规范,结构部件简单明了。为了方便作者写作,Elsevier提供了专门模板,作者只需要在模板相应部分填充进相关内容即完成了论文创作。如DIB数据类论文(图2),其发表的文章除常规著录项之外,包括以下结构部件:(1)详细的说明性表格,用来说明主题领域、数据类型、数据格式、数据获取途径等;(2)对数据价值的概括性描述;(3)数据链接;(4)对实验设计、材料与方法的完整描述。

图2 DIB结构部件图
SoftwareX的文章结构分为两种(图3、图4),一种是未出版过的软件/代码,应遵守原创性出版物(OSP)模板的要求,包括:(1)简介;(2)问题与背景;(3)软件框架;(4)操作及实证结果;(5)例证样本;(6)不少于F条参考文献;(7)现行软件版本或现行代码版本的元数据。另一种投稿是“软件升级”类文章,是对以前发表过的软件T代码进行更新,其结构部件为:(1)包括更新版本号和原创软件名称的题目;(2)原创软件出版物的PII码;(3)不多于两页的正文;(4)升级后的软件版本和代码的元数据。

图3 原创软件出版物(OSP)模板

图4 软件升级类文章模板
MethodsX文章聚焦于技术层面,其结构包含(如图5所示):(1)摘要;(2)图解摘要;(3)被充分描述的、包含任何相关图表的方法;(4)至少一条包含了与该方法相关的参考文献。

图5 MethodsX文章范例
4 讨论
当前,开放科学的理念已经深入人心。继全文文献开放获取后,科学数据也被要求开放共享,并在世界范围内引起了政府、基金资助组织、科研群体以及公众的热烈响应和广泛参与,得到了极大推动。然而,开放运动发展到今天,开放全文、开放数据已远远达不到开放科学的要求;实验流程、实验方法、实验记录、软件、协议、材料,这些构成科研活动的客观要素的价值日益凸显并越来越受到科研群体的重视。但是,怎样鼓励科研群体共享研究要素,如何保证共享素材的真实性、有效性和科学性?这是开放科学需要解决的首要问题。于是,研究要素出版应运而生。
4.1 研究要素出版的意义
研究要素出版体现了开放科学发展的内在要求,它“简单、可靠、可被引用、可被发现(Simple、reliable、citable、discoverable)”,具有十分重要的意义。它的优势体现在多个方面:
(1)研究要素出版为科研人员详述各项研究要素提供了有效平台,有利于科研信息共享、科研要素重用。研究要素细节化、公开化、透明化,既可防止学术不端,又可避免科研重复,节省科研成本。
(2)研究要素出版加速科研传播效率。“完整的科研故事”式论文以科学问题为中心,不但对科研人员的论文写作水平要求高,而且只有完成了所有流程,论文写作的素材才全部具备。从“科学问题提出,到实验设计、开展实验、采集结果、分析结果,再到成文、投稿、发表”,是个相当漫长的过程,这在一定程度上会影响科研成果的传播时效性,降低传播效率。研究要素论文只关注科研流程中的某个单一要素,科研人员可以在科研过程中的任何阶段发表其进展。此外,研究要素类论文结构简单,易于成文,这无疑会缩短科研成果传播时滞,提高科研交流效率。
(3)研究要素出版有利于帮助科研人员建立涵盖科研要素生命全周期的健康管理模式,防止科研成果浪费和丢失。据调查,80%公立项目原始数据在论文发表后二十年内丢失,且论文发表的越久,原始数据丢失的几率越大。研究要素论文不仅会以论文形式永久记载阶段性要素和成果,也会提供长期存储平台,在文章发表后,作者还可继续提交修正和更新版本。所以说,研究要素出版不仅为客观研究要素提供了发表平台,也提供了有效的存储和管理平台。
(4)研究要素出版为科研人员带来更高的学术信誉。多项研究表明,正如开放获取会给期刊和论文带来更高的关注度一样,原始数据公开能够提高论文影响力。Heather A.Piwowar在调研肿瘤基因芯片临床试验的文献以及数据可用性后发现:48%公开原始数据的文章获得85%的总体引用次数,数据是否公开与引用次数增加与否呈显著相关关系,相关性独立于期刊影响因子、发表日期、作者国别。此外,研究要素论文也为那些从事数据采集、数据处理、数据管理、软件开发、流程设计的人员提供了学术发表通道,给他们带来学术信誉,助力其职业生涯提升。
(5)研究要素出版为数据驱动科研、数据驱动发现、数据驱动创新提供坚实的知识基础(knowledge base)。在数字知识时代,科研创新愈发依赖于各种先进的技术手段,结构化、语义化、标准化的数字内容则构成了有效的信息基础。研究要素论文结构简单、统一、标准,经过严格的同行评议,具有可靠的科学性和专业性,无论从形式上还是从内容上都可为数据驱动科研创新构建强大的知识基础。
4.2 研究要素出版的不足
研究要素出版在一定程度上代表了学术出版的新方向。但必须要认清的是,现阶段,研究要素出版还存在着诸多不足。比如,符合出版要求的研究要素的体量难以界定、质量控制机制尚未健全。此外,包括署名规范、作者贡献声明等在内的科研诚信和伦理规范也还没有建立。也必须要认清的是,研究要素出版只是传统出版的有益补充,前者不能也不应该取代后者。在科研评价方面,二者也绝不能简单等同。否则可能会带来部分科研人员不致力于重大科学问题的创新,而追求发表“短平快”论文的弊端,从根本上违背了研究要素出版创立的初衷和宗旨。
4.3 启示
当前,“开放科学”受到普遍关注,被认为是未来科学发展的新模式。在这种背景下,国际出版社顺势而为,推出了研究要素出版。虽然其存在着若干不足和诸多亟待解决的问题,但仍然在较短时间内体现出了诸多优势。科技期刊在学术交流系统中占据着核心位置,可以想见,这种新兴的学术出版类型将对推动学术交流系统的变化和重构起到积极作用。它的作用方式如何,构成学术交流系统各个环节的主体和客体又将有怎样的响应方式,这种响应又会通过何种方式反过来影响科技出版内容的变革,等等,对这些问题的探讨将会深化我们对新型出版模式的研究和探索。
在新型出版模式下,学术出版的内涵也在发生变化。科技期刊的作用不仅仅局限在提供文献资料支撑上,而是与知识服务结合得愈加密切。我国科技人员数量庞大,科技期刊出版体量巨大,具备创立研究要素出版的条件和基础。在数据出版方面,国内已有部分期刊做了成功尝试和探索(如中国科学院计算机网络信息中心创办的《中国科学数据》),为我国期刊出版界开拓新兴出版模式起到了很好的借鉴作用。笔者倡议国内科技期刊出版界在适当时机拓宽出版内容,既为科研群体提供多样化的发表通道,服务科研交流,也可集聚数字科研资源,助力科研创新,为将期刊打造成知识服务平台奠定资源基础。