科学出版物语义数据及其应用研究_中国（武汉）期刊交易博览会（刊博会）

　　［关键词］语义出版；数据出版；科学数据；语义数据；科学出版物

　　［作　者］徐雷，潘珺：武汉大学经济与管理学院

　　［摘　要］【目的】科学出版物的语义化过程中产生了大量的语义数据，分析这些语义数据的特征可以为语义出版实践提供参考和借鉴。【方法】通过收集目前常用的典型科学出版物语义数据，多角度分析这些数据集的类型、组成要素、生成流程及其支持的应用系统功能，总结这些语义数据在开发、开放、发布中的共性。【结果】目前主流的科学出版物语义数据集具有相似的数据开发与组织流程，偏向于自然科学领域，具有不同的组织粒度及应用特点。【结论】科学出版物语义数据的生产与应用仍面临诸多挑战，需要在数据的规范使用、数据本身的质量以及基于这些数据的服务上予以重视。

　　科学出版物语义数据是出版物经过结构化、语义化等操作后形成的数据形态，科学出版物语义数据的组织与发布可以提高科学研究成果的可发现性、可重复性，并提高数据的互操作性。本研究将科学出版物语义数据简称为语义出版数据（Semantic Publishing Data），广义上讲，语义出版数据是科学数据（Scientific Data）的一种形态，传统的科学数据主要指在科学活动过程中所产生的科学研究数据，它是科研结论的重要证据及支撑材料，包括各种科学实验与观测数据，以及基于原始数据分析而得到的科学发现数据等。而狭义的语义出版数据更多的是对科学出版物本身语义化而得到的数据，而非上述所说的科研活动中产生的数据。本研究所指的语义出版数据是诸如纳米出版物、语义化的科学引文数据等类型的数据，这些数据是在传统期刊、会议、项目、论文、图书等资源的基础上经过信息抽取、语义组织与转换而形成的关联数据，或者从一开始就是关联数据的组织形态数据，语义出版数据是对传统数字出版物内容、结构等层面的再组织，是出版物组织与发布的新形态，也是语义出版（Semantic Publishing）和数据出版（Data Publishing）的最新实践。

　　语义出版侧重使用关联数据（Linked Data）等语义技术来组织出版物，如纳米出版物、增强型出版物等形态，而数据出版相对于传统的文献出版而言，强调科学数据的开放共享、数据的重复利用等，以支持更广泛的科学交流活动。数据出版实践中的科学数据格式可能是文本数据、表格数据等形式，也有可能是关联数据，即链接科学数据（Linked Scientific Data）。语义出版数据可以看作是语义出版和数据出版的融合，语义出版数据本身就是一种数据形态，可作为数据出版实践中被发布的对象，同时语义出版数据的生产中使用了大量的语义技术，因此它又是语义出版实践的产物。

　　在实践中，尤其是在数据驱动的开放学科研究环境下，语义出版与数据出版交融的趋势越来越明显，即语义出版中涉及数据的发布，数据出版中会应用到语义技术。比如，在出版物语义化处理与生产的过程中，就包括了传统科学数据的语义化过程，例如通过构建科学数据本体来对科学数据进行组织，对科学数据进行语义化描述等。还有如在Research Object中，将科研项目、科学论文、科研活动、科研流程、科学假设与结论以及科研活动中产生的科学数据、代码等都纳入到一个统一的组织框架，进行语义化关联与发布，以促进科学数据的共享重用以及科学成果再现。这些研究在一定程度上可看作是语义出版实践，也可看作是数据出版实践。

　　就科学出版物语义数据的来源而言，语义出版数据更多是伴随着对语义出版的研究与实践而产生的，语义出版的主要目的是通过可视化、动态检索、语义标注等手段来增强出版物的语义，进行关联，共享出版物背后的科学数据，丰富出版物的元数据来提高机器的可读性，进而促进出版物的可发现性。在出版物的语义关联、标注、共享的过程中，根据不同的组织类型、组织粒度以及使用的不同数据模型就会产生各种类型的语义出版数据。因此，语义出版数据开发的重要性就不言而喻。本研究主要聚焦于目前主要的语义出版数据集，分析这些数据集的类型、组成要素、生成技术以及应用状况，总结目前语义出版数据集发布的特点，发掘基于这些数据集的可能科学研究形态及趋势，以及作为数据出版的一种数据形态，其对科技期刊发展的意义。

　　1 语义出版数据集概览

　　语义出版作为一种新型的出版物组织技术在近几年受到了来自学术界和工业界的广泛关注，尤其是在开放科学运动的环境下，出版物不再是传统纸质期刊的载体形态，而是呈现出开放获取、预印本、数据出版、纳米出版物、微型出版物等越来越开放、细粒度、结构化的新型出版物形态。在这一过程中也出现了推动各种新形态的组织机构，如开放引文组织（Initiative for Open Citations，I4OC）、出版商国际链接协会Crossref PILA、W3C组织下的各种出版小组等以及各种语义出版标准，比如语义出版和引用本体（Semantic Publishing and Referencing Ontologies，SPAR）；同时，语义出版的应用也逐渐增多，语义出版模式也逐渐被一些出版商所采纳。伴随着语义出版和数据出版实践的开展，已经有大量的语义出版数据集被产生并发布出来，表1整理了目前为止一些典型的语义出版数据集。

表1 语义出版数据集概览

数据集名称	类型	发布机构或人员	数据集简介
LOD DBLP	出版物关联数据	目前由南安普顿大学维护	2010年创建,是LOD中比较典型的出版物关联数据集｡它是计算机领域的书目数据集
OpenCitations	出版物引文数据	牛津大学､博洛尼亚大学	2010年首次发布,最初数据来源于PubMed开放获取论文数据｡在2017年I4OC开放引文运动后,相关组织开始呼吁全领域都开放其论文的引文数据｡在http://opencitations.net网站上可以查阅该数据集最新的更新状态｡遵循CC0协议
Semantic Lancet	出版物引文数据	爱思唯尔出版集团	2014发布,作为爱思唯尔出版集团的语义出版项目而产生的数据集,该数据集使用SPAR､CiTO本体对Journal of Web Semantics的引文数据进行了语义关联,并提供了SPARQL､REST等方式的数据访问手段｡遵循CCBY-NC4.0协议
CEUR-WS	会议论文关联数据	CEUR-WS.org	目前CEUR-WS.org主要处理计算机领域的研讨会论文集的结构化信息
WikiCite	Wikidata引用数据	Wikimedia基金会	WikiCite于2011年被提议｡Wikidata是一个结构化的知识库,包含了大量的数据条目,这些条目之间有丰富的引用关系,WikiCite就是这样一个关于条目之间的引用关系的数据集
SciGraph	出版物相关的关联数据	Springer-Nature	SciGraph是Springer-Nature集团2017年发布的语义出版数据集,包含了科学基金､科研项目､会议､隶属机构以及出版物等信息｡与SciGraph类似,Springer LOD Conference专注于会议,如会议的相关元数据信息,如会议名缩写､召开城市和时间等,目前提供了对这些信息的检索接口｡遵循CC BY-NC4.0协议
OpenAIRE	出版物以及链接科学数据	欧盟委员会	2009年启动的一个项目,其间经历过OpenAIREPLUS项目｡目前的项目是OpenAIRE2020,始于2015年,包含出版物以及各种科学数据集
Nanopublication	纳米出版物	TobiasKuhnandJuanBanda	遵循纳米出版物原则,目前该纳米出版物主要来源于生物医学相关领域,比如药物交互数据(Drug-Drug Interactions)､基因交互数据(neXtProt Protein Data)､生化过程数据(WikiPathways)等
SciKG	学术社交数据	清华大学	2017年发布,SciKG目前包括计算机科学领域的主要概念､专家和论文等知识图谱数据
AceKG	出版物关联数据	上海交通大学	2018年发布,AceKG包括了大部分领域的论文､作者､期刊､机构､会议､隶属单位等链接数据

　　目前，语义出版数据的最大来源是关联开放数据（Linked Open Data，LOD）出版物类型中的数据集。最新版的LOD数据（2018-04-30版）中的语义出版数据集共有156个，约占整个LOD数据集的13.2%（156/1184）。通过分析LOD中的这些语义出版数据发现，这些数据主要来自图书馆书目数据、开放获取期刊数据、文化遗产数据、教学课程资源、学位论文数据、学术会议信息、引文链接数据、历史档案数据、主题词表、各个大学的阅读列表数据等。LOD中语义数据的发布需要满足的条件是：该数据集必须和LOD中已有的数据进行关联，或者被其链接。表1中的LOD DBLP就是一个比较有代表性的数据集，与DBLP类似的数据还有美国计算机协会（Association for Computing Machinery，ACM）、电气和电子工程师协会（Institute of Electrical and Electronics Engineers，IEEE）等关联数据。表1中除了DBLP和Nanopublication外，其他数据并没有在LOD中链接或注册。

　　2 语义出版数据集结构要素

　　在LOD语义出版数据中，DBLP是最典型的语义数据集之一，它链接到其他数据集的数量为34个，被其他数据集链接的书目为31个，是所有语义出版数据集中关联度最高的一个，目前该数据集中含有24112294个三元组。最初DBLP的数据是XML格式的，因此对于这种格式化的数据极容易转换为资源描述框架（Resource Description Framework，RDF）关联数据。OpenCitations数据集遵循FAIR原则，采用RDF格式，使用SPAR本体和OpenCitations本体来组织数据。目前开放引文运动以及OpenCitations数据的发布日益庞大，且已经获得了诸多出版商的支持。WikiCite基于Wikidata资源创建，其创建引用的机制沿用了很多Wikidata自有的数据模型，因此该链接数据可以在Wikidata的各个页面或条目之间进行有效链接，同时该数据模型也可以被其他数据集所使用。Springer-Nature的SciGraph目前包含1.55亿个三元组，并且仍在持续不断增加新的数据。目前该数据集包含了2012—2016年的Springer-Nature期刊数据。OpenAIRE可以看作一个开放的集成链接科学数据的平台，其对科学数据和各种基金资助项目进行关联，数据主要来自于各个数据的提供者，并遵循OpenAIRE的内容获取政策，目前主要面向欧洲，但未来有扩展到全球的计划。截至2018年3月，OpenAIRE中已经有1153个数据提供者。目前的数据格式遵循OpenAire Format（OAF），数据提供者可以通过OpenAIRE的验证工具对欲提交的数据集进行兼容性验证。SciKG数据集是一个学术社交数据集，学术搜索引擎AMiner就是基于该数据集开发的。与SciKG类似，AceKG是一个学术链接数据集，但其学科领域更广，不侧重社交属性。

　　表2给出了这些语义出版数据集内容的主要构成要素，以及数据集使用外部词汇或数据的情况。通过分析可以发现，目前语义出版数据的学科来源以计算机、生物医学、百科等相关领域居多，但全领域的数据集也有，如上海交通大学的AceKG数据集。在组织层面上，这些数据集在制作过程中大部分都会复用已有的本体框架或领域词汇，并和其他的数据资源进行关联，比如和出版领域相关的SPAR本体、都柏林核心词汇、简单知识组织系统（Simple Knowledge Organization System，SKOS）等，以及具有领域特色的数据资源如基因本体（Gene Ontology，GO）、医学主题词表（Medical Subject Headings，MeSH）、ACM计算分类系统等，这符合语义数据发布的参考原则。另外，从这些语义出版数据的内容组成上看，主要围绕出版物的元数据信息、出版物之间的参考引用信息、出版物相关的实体元数据信息（如编辑、作者、机构、会议、期刊、出版商等）以及这些实体之间的关系来组织，组织的粒度大部分还处于出版物的元数据层面，深入到出版物内容层面的组织形态目前只有Nanopublication这一个数据集。

表2 语义出版数据集结构要素

数据集名称	内容组成结构	使用已有的词汇､本体,链接到外部的数据集
LOD DBLP	计算机领域的期刊论文､图书､学位论文､科学数据､编辑人员､非正式出版物､会议和研讨会论文的元数据信息	Dublin Core､Foaf､AKT参考本体
OpenCitations	会议论文､图书章节､期刊论文等之间的引用信息,以及会议议程､图书､期刊､出版商､编辑等集合的元数据信息	SPAR本体､OpenCitations本体､Data Catalog､VoID､PROV数据模型
SemanticLancet	JournalofWebSemantics的论文元数据信息,以及该刊论文之间的引文数据	FABIO本体､C4O本体､PROV数据模型､WordNet､DBpedia
CEUR-WS	计算机领域的研讨会元数据信息,比如研讨会名称､举办时间､地点､论文集的主编､在线访问地址等	无
WikiCite	维基项目中百科词条､网页､作品､在线期刊文章等之间的引用信息	Wikidata数据模型
SciGraph	主要包括科学基金､期刊､学科主题术语以及论文的元数据信息,以及这些要素之间的链接信息	Grid本体､ANZSRC分类法､SciGraph核心本体､SKOS､DBPedia､MeSH､CRM等
OpenAIRE	主要包括数据提供者提供的文献数据和各种科研数据,OpenAIRE对提交的数据进行元数据层面的约束,包括数据的ID､类型､创建者､名称､标题､发布者､年份等字段	Dublin Core､DataCite XML Schema､OAI-PMH协议
Nanopublication	主要包括断言､溯源和出版物信息3个部分,用于表征最核心的科学事实和科学发现	GO､MeSH等
SciKG	主要包括计算机领域的学者信息,如职位､隶属机构､研究兴趣､社交账号､联系方式等,以及论文的元数据信息､研究主题信息等	ACM计算分类系统､维基百科
AceKG	众多学科领域的论文､作者､期刊､机构､会议､隶属单位的元数据信息及其之间关系的链接数据	无

　　3 语义出版数据集生产流程

　　LOD DBLP直接由原始的XML格式的DBLP数据库转换而来。CEUR-WS语义数据集将PDF格式的研讨会论文数据进行文本转换、语义标注、外部链接，生成RDF关联数据的格式。同时，在Figshare.com网站上找到论文资源元数据对应的实体、类别等信息并链接映射；对于Figshare.com网站上的文献中的引用信息，也找到其相应的DOI信息并关联。Nanopublication数据集目前主要是从结构化的生物医学数据中抽取转换而来，如WikiPathways、Biological Expression Language（BEL）数据等。Semantic Lancet数据集是通过获取Journal of Web Semantics的引文数据，并使用SPAR等本体进行标引集成而生成的。Springer的SciGraph数据集，其使用了ETL（Extract Transform Load）技术来获取这些关联数据，其中包含了大量的数据抽取任务。

　　OpenCitations数据集首先使用Europe PubMed Central API从PubMed中抽取开放获取文章的参考文献列表并生产JSON格式的数据，然后基于这些数据，使用Crossref API和ORCID API工具收集更多的关于这些引文数据的补充数据，并转换为RDF格式，或发布为关联数据。

　　目前，WikiCite项目还在进行当中，其研究的技术问题包括：构建书目数据源的元数据模型、引用信息的抽取与查询、有效的表征引用行为（如引用出现的位置、引用的目标源等）、自动在Wikidata中添加引用信息、Wikidata结构化数据的语义查询、Wikidata数据的集成等。在WikiCite项目的驱动下，英文维基百科的PubMed Central ID（PMCID）、书目元数据以及部分生物医学文献的引文网络等数据已经集成进入Wikidata。

　　SciKG集成了微软学术图谱（Microsoft Academic Graph，MAG）数据，并作为学术搜索引擎AMiner的支撑数据。整个数据集使用的知识获取核心技术包括：从社交网络如Facebook、Twitter中识别并抽取学术作者，并将不同社交平台的学者社交网络进行语义融合，涉及到实体消歧技术，也需要手工纠错、众包的方法来提高整个数据集的质量。整个数据集包括引文数据、学术社交网络数据、导师与学生关系数据、主题的共同作者数据、主题和论文以及作者数据、主题与引文数据、核心社区数据、引用链接标注数据等。AceKG则直接从上海交通大学开发的学术搜索引擎Acemap的后台数据中经过抽取、格式转换而来。这些数据集的生成方式可以通过图1所示的流程来展示。首先，收集各种不同结构化程度的学术资源，包括学术网站、结构化数据、学术搜索引擎和数据库等预处理的资源，然后针对数据特征，进行数据抽取、转换以及清洗等预处理工作，对原始资源进行结构化。之后，通过引入本体、词汇、数据集等外部资源对预处理之后的数据进行数据标引、结构化表示与组织、与已有的数据集进行链接映射，并按各种组织标准对其进行形式化处理。在数据发布之前，为了保证生成数据的质量，一般也会引入数据质量审核流程，以提高最终发布数据的质量，或通过众包的方式来解决计算机算法难以处理的问题。最后，在数据发布的阶段，一般会提供开放API数据访问接口以支撑基于这些数据之上的应用。当然，实际情况不一定完全符合上述各个环节，有些语义出版数据从生产开始就是结构化了的语义数据。

图1 语义出版数据生产制作流程

　　4 基于语义出版数据集的应用系统功能

　　DBLP等LOD数据集要求数据集中的统一资源标识符（Uniform Resource Identifier，URI）必须是可以解析的，同时数据集必须和其他数据集进行链接。这些数据集一般都会提供SPARQL查询服务、在线浏览、批量下载等访问形式，可供其他外部程序调用。SciGraph目前推荐使用Elastic套件中的ElasticSearch或Kibana工具进行基于该数据的应用，比如查询导览、可视化、统计分析等功能。

　　OpenAIRE提供了访问其数据的开放API，目前提供了强大的分面搜索功能，比如按照基金资助者、访问的模式（开放获取还是有限制的其他模式）、出版时间、文档类型、语言等维度来检索出版物、研究数据集、项目、研究人员、组织等信息，同时也提供出版物及科研数据集的提交功能，并在未来提供数据集的清洗、转换、消歧等数据集的丰富化服务、数据集的使用分析等知识服务。

　　目前，Semantic Lancet提供了作者发文浏览，以及基于作者、摘要、文献标题、地点等信息的文献深度查找功能，并将论文摘要信息进行语义索引，和WordNet以及DBpedia资源进行映射。基于该语义化索引的摘要数据，Semantic Lancet提供了论文语义检索功能，以及基于引文数据的论文、作者的影响力可视化分析功能，还提供了关于该数据集中存在的错误、不完整或重复的数据报告。

　　WikiCite目前提供了SPARQL查询服务，可以方便用户自动构建SPARQL查询语句，并将检索结果根据数据类型展示为各种可视化的形式，而不是传统的表格数据。目前，WikiCite提供了气泡图、时间线、网络图、饼图、散点图、树形图、矩形树图、地理地形图等形式多样的可视化检索结果。

　　纳米出版物形式的语义出版数据更被认为是未来的出版形态，这种直接将最核心的科学事实和结论使用极小的纳米单元容器进行组织发布，将极大地促进科学交流与科学发现的进程，缩短不必要的科学实验时间，促进更为广泛的科学共享与科学创新。目前Nanopublications数据集已经被组织成服务器网络，世界各地的Nanopublication服务器都可以发布数据，并将其链接到该网络上。

　　SciKG数据集已经应用在了AMiner学术搜索引擎，该搜索引擎以学者为中心，可以检索到学者的姓名、头衔、隶属机构、教育背景、研究兴趣、发表的论文、引文指标数据、研究兴趣的历时变化、研究的多样性指标及活跃度指标等；同时，可以发现相似的作者、研究领域的新星，提供绘制作者的自我中心社交网络等功能。在该数据集基础上，AMiner可为学者提供个性化的学术服务，如发现领域著名学者、机构、地区，推荐投稿会议，推荐论文审稿人等服务。

　　OpenCitations作为引文数据集，目前正在逐渐扩大，其主要的应用领域是引文分析相关的文献计量研究。科学引文数据分析作为科学计量学的重要研究方向和方法，在传统的研究工作中，通常学者开展引文分析时，需要经历检索科学文献、下载题录数据、数据预处理、数据格式转化、导入分析软件与程序、选择分析方法与指标、可视化分析结果、结果分析与总结等若干步骤，其中数据准备就占据了大部分的时间。OpenCitations数据集是高质量、完整的结构化语义数据，OpenCitations数据集的出现及壮大将极大地缓解科研人员搜集数据的压力，同时支持更为准确的计量分析结果，也势必会极大地缩短目前的科学计量研究路径。

　　整体来看，基于语义出版数据集的应用系统基本都会提供开放的数据访问接口，如SPARQL、REST API，以便于更多的应用能够轻易地使用这些数据。同时，结合可视化、数据挖掘、数据统计分析等技术为学术界提供智能的学科知识服务是所有这些系统的目标，语义出版数据的生产与发布将极大地提高学术交流的便捷性和效率。

　　结语

　　本研究通过系统分析目前常见的语义出版数据集的特征，发现这些数据集主要围绕出版物的相关内外部信息来进行组织，通常会参考外部本体等词汇数据，并和已有的数据集进行关联。数据集的生产制作过程基本遵循数据收集、预处理、形式化、发布等环节，并对外提供开放API。在差异方面，首先，语义出版数据的组织粒度不同，有的数据是引文数据，有的是综合性的论文书目数据，有的数据不涉及文献的内容关联，有的数据则深入到科学结论等；其次，就目前发布的语义出版数据而言，自然科学领域的数据集占很大一部分，社会科学、人文科学等领域的语义出版数据还较少；最后，提供开放API或语义查询服务已成共识，而基于数据集之上的应用等学科服务则存在不同，有的侧重于出版物检索与导航，有些则提供了更为深度的数据挖掘等知识服务功能。

　　针对目前语义出版数据组织粒度的差异，属于出版物元数据、引文数据、概念主题标引层次的语义出版数据不一定比那些深入到出版物内容结构、论证关系、词汇语义等层次的语义出版数据要差。相反，对出版物数据进行结构化、语义化，从一开始就已经带来极大的好处。另外，就目前语义出版数据集的学科分布不均衡而言，这种情况应该在未来有所改善，比如目前如火如荼开展的数字人文研究。鉴于人文科学领域产生了越来越多的结构化数据，而数据的产生并不是自然科学领域所独有的，因此未来语义出版数据的领域来源将更丰富。最后，关于语义出版应用的趋势显而易见是各种数据的集成混搭形态以及对检索结果的可视化分析，关联数据技术可以链接一切可以被链接的资源，进而对各种应用形态提供支撑。比如，对语义出版数据进行可视化来呈现可视的出版物信息和内容，对发布的图像标注数据并呈现标注内容，对地理信息数据呈现出地图信息等。

　　在语义出版和数据出版实践下，转变传统学术期刊的出版思路、调整编辑活动、融合语义出版操作流程是一个极大的挑战，进行全面的数字出版流程再造及转型难度极大，但学术期刊仍能有所作为。在开放科学的环境下，数据的加工处理方法和工具已经越来越普及，在出版物发布过程中，对出版物进行结构化和语义化处理、关联相关的实体资源，并以标准化的方式进行出版物和科学数据的语义发布，是数字时代编辑、出版商等有能力采取的举措。比如，2017年发布的OpenCitation引文数据集的生产就不存在很高的技术门槛，要求出版机构将其数据库中论文的参考文献信息语义化并开放出来即可，但此举对学术界而言意义重大。

　　就本研究分析的数据而言，未来语义出版数据的生产与消费需要关注如下几个方面的问题：（1）数据的规范使用，如何在科学研究中正确规范地引用这些语义数据，如何根据使用协议，对数据进行二次加工与修改，这是科学发现与改进的前提；（2）数据的规范组织与质量保证，如何在语义数据的生产过程中保证数据的质量，如何让更多的人在发布数据时遵循相关的数据编码规范及原则，如何评估语义出版数据，这是科学结论重现的保证；（3）数据融合与应用，如何让更多的数据发生关联，如何在即将涌现的大量语义出版数据上重现科学结论、提供知识发现服务，以及提供新的科学研究模式，将是语义出版数据从生产到消费全阶段中需要关注的重点。

业内信息

科学出版物语义数据及其应用研究