【摘 要】基于《数字内容对象存储、复用与交换规范》(GB/T 38371),构建一套服务于数字出版的数字内容对象知识模型,以系统地表示和记录出版内容资源的知识结构、特征、表现形式、载体方式以及知识之间的关联关系,并支持按不同粒度进行出版内容资源数据的封装、存储、复用与交换。
【关键词】数字出版;知识模型;标准化;本体技术;模型扩展
随着互联网技术的发展和数字加工技术的逐步成熟,出版机构广泛应用信息技术开展数字出版。数字出版内容资源不仅包括可交付印刷或电子出版的媒体对象(如整本书、某一篇章、期刊的某一期或某一篇文章的PDF文件等)以及排版设计或加工过程中产生的媒体对象(如排版设计源文件),还包括封面、目次、元数据、内容主体、辅文(如摘要、参考文献)等数字内容构件类对象。对于这些数字出版内容资源,需要建立一套统一的数字内容对象知识模型,以系统地表示和记录资源的知识结构、特征、表现形式、载体方式以及知识之间的关联关系,并支持按不同粒度进行相关数据的封装、存储、复用与交换。
2020年3月,《数字内容对象存储、复用与交换规范》(GB/T38371)[1,2,3]系列国家标准首次发布,并于同年10月实施。该国家标准第1部分提出了一套数字内容对象知识模型框架(Digital Content Object Ontology,DCOO)[1],以该模型为基础,可通过标准化扩展构建得到适用于数字出版的实用性知识模型,即出版内容资源本体(Publication Content Resource Ontology,PUBO)。
PUBO是一套开放的模型体系,其中包括基础模型及其子模型(如图书子模型、期刊文章子模型等)。PUBO作为出版行业的实用性知识模型,其基础模型可直接形式化表示通用类型出版内容资源,其扩展子模型可以精准地满足特定类型出版内容资源的个性化表示需求。由知识模型框架DCOO到PUBO基础模型,再到PUBO子模型的整个模型扩展过程,是一个服务于出版行业数字出版应用的知识模型标准化构建过程。
1 相关工作
GB/T38371首次发布及PUBO模型体系提出之前,国内外相关领域已有一些可参考的数据模型和标准,国内相关标准如《信息与文献文化遗产信息交换的参考本体》(GB/T37965)[4]、国家数字复合出版系统工程成果《复合文档基础结构》(GC/FH12)[5]等系列标准,国际上相关数据模型如Schema.org[6]、DBpedia.org[7]、BIBFRAME[8]、CIDOC CRM[9]、DCMI[10]、PREMIS[11]、FOAF[12]、PROV[13]、SPAR[14]等。
《信息与文献文化遗产信息交换的参考本体》(GB/T37965)源自CIDOC CRM(CIDOC Conceptual Reference Model),对应的国际标准为ISO21127。该模型适用于文化遗产机构数据信息的框架描述,建立了机构之间信息交换的指导原则。
《复合文档基础结构》(GC/FH12)等国家数字复合出版系统工程系列标准规定了复合文档的构成、内容结构及扩展规则等,适用于复合出版系统工程中复合文档技术的开发和应用。
Schema.org是由Google、Bing和雅虎等共同发起的一个互联网项目,给出了一组常用的本体定义,为网页结构化数据标记提供了通用的数据模型。
BIBFRAME是由美国国会图书馆提出的书目数据模型。该模型适用于图书馆相关领域,规定了图书及连续出版物等文献情报资源的数据表示,为图书馆领域知识库搭建提供了模型基础。
以上对象模型和数据标准,存在数据格式限定、应用行业限定以及描述资源类型限定的缺陷,不能满足国内数字出版领域对于通用类型出版内容资源的标准化知识模型的需求。但以上模型及标准中的概念获取、模型设计、扩展机制、问题分析等思路和方法值得借鉴。
2 出版内容资源本体建模
2.1 建模基础
PUBO的构建基于《数字内容对象存储、复用与交换规范:第1部分对象模型》(GB/T38371.1–2020)中的知识模型框架DCOO,因此DCOO确立了PUBO模型体系构建过程的标准化基础。
DCOO基于W3C的网络本体语言OWL[15]和资源描述框架RDF[16]标准,由类、属性和数据类型等元素组成。该本体模型的根类为“实体”类,其下派生出一级类,包括“代理者”“贡献”“数字内容实体”“受控术语表”“事件”“地点”“权利”“责任方式”“值实体”及“语种”。一级类可进一步派生出二级类和三级类。每个类包含一组属性,用于描述类的特性或与其他类的关系。数据类型规定了属性取值为数据值时所应具有的类型,如文本值、数值、日期值、布尔值等。
DCOO对其类实例的属性取值以及属性出现次数进行了限定,称为取值约束和基数约束。利用受控术语表,DCOO还对其类实例的属性取值进行了范围限定,既可规范属性取值,也为模型扩展提供了一条灵活且轻量级的途径。
2.2 设计思路
PUBO以知识模型DCOO为框架,从类和属性两个方面进行扩展,遵循DCOO的模型扩展机制。[1]
PUBO的设计思路主要包括3个方面的内容:①细化DCOO已有类的包含属性,并派生出新扩展类;②细化DCOO已有属性的定义域或值域,并新增扩展属性;③新增模型相关值约束条件或基数约束条件。
2.3 模型组成
如图1所示,PUBO由3部分组成。

图1 PUBO的组成及来源
(1)PUBO继承了DCOO所有的类、属性及数据类型;
(2)派生自DCOO类的新扩展类;
(3)基于DCOO类及PUBO新扩展类的新扩展属性。
2.4 模型体系结构
PUBO模型体系由基础模型及其子模型组成。目前,已扩展的子模型包括图书子模型(PUBO4B)、期刊文章子模型(PUBO4JA)以及扩展自图书子模型的条目类工具书二级子模型(PUBO4RefB)。PUBO模型体系结构如图2所示。

图2 PUBO模型体系结构
图2中的扩展集K0包含了基于DCOO的新扩展类和属性;K1和K3分别包含了各自子模型中基于PUBO基础模型的新扩展类和属性;K2包含了基于图书子模型的新扩展类和属性。
2.5 标识符表示
PUBO模型体系采用国际化资源标识符(IRI)对类、属性以及实例进行唯一性标识,由命名空间取值拼接本地标识符构成。
2.5.1 DCOO的标识符
DCOO的IRI形式如“http://dcoo_authority_domain/standards/dcoo#E19_TextEntity”,其中,“http://dcoo_authority_domain/standards/dcoo#”为DCOO类的命名空间取值,“E19_TextEntity”为“文本实体”类的本地标识符。
2.5.2 PUBO基础模型的标识符
PUBO基础模型的类和属性的命名空间取值为“http://pubo_authority_domain/standards/pubo#”。类的本地标识符以“X”依次拼接数字序号、下划线及英文名称标识的方式确立。属性的本地标识符以小写字母“x”依次拼接数字序号、下划线及英文名称标识的方式确立。
例如,“摘要”类的本地标识符为“X58_Abstract”,其完整IRI为“http://pubo_authority_domain/standards/pubo#X58_Abstract”。
2.5.3 PUBO子模型的标识符
PUBO子模型的标识符相关信息如下。
(1)图书子模型的命名空间取值为“http://pubo_authority_domain/standards/pubo/bookparts#”;类和属性的本地标识前缀分别为“XB”和“xb”;
(2)条目类工具书子模型的命名空间取值为“http://pubo_authority_domain/standards/pubo/refbookentry#”;类和属性的本地标识前缀分别为“XRB”和“xrb”;
(3)期刊文章子模型的命名空间取值为“http://pubo_authority_domain/standards/pubo/article#”;类和属性的本地标识前缀分别为“XA”和“xa”。
2.5.4 实例数据的标识符
PUBO模型体系中,实例数据的命名空间取值由出版内容资源的加工或应用单位根据自身需求确定执行,通常可引入单位域名,如“http://单位域名/data/pubo#”。实例数据的本地标识符可参考数据在本地资源库中的存储标识来确定。
2.6 模型构建路径
PUBO基础模型的主要概念来源为DCOO,参考相关国家标准、行业标准、数据规范以及模型,最终确定了93个类、215个属性(其中包括DCOO类29个、DCOO属性48个)。
由PUBO基础模型扩展得到各级子模型的构建路径有3条。
(1)图书子模型在基础模型之上,新扩展出23个类、14个属性,合计包含116个类、229个属性,如图3所示。

图3 由PUBO基础模型扩展得到PUBO4B
(2)条目类工具书子模型在PUBO4B的基础上,新扩展出4个类、4个属性,合计包含120个类、233个属性,如图4所示。

图4 由PUBO4B扩展得到PUBO4RefB
(3)期刊文章子模型在基础模型之上,新扩展出7个类、14个属性,合计包含100个类、229个属性,如图5所示。

图5 由PUBO基础模型扩展得到PUBO4JA
3 知识表示及应用
3.1 出版内容资源对象构成
对于数字出版中的普通图书、条目类工具书、期刊及其文章等对象,可包含元数据、目次、内容主体及媒体对象等4个方面的实例数据。其中,内容主体可细分为封面、正文、辅文、附件及更多其他类型的实例数据。
3.2 资源之间的主要关系
资源实例数据之间的关系,是通过模型中的属性来表达的。PUBO模型体系中的关系属性主要包括以下5个方面的内容。
(1)“内容主体”及其子属性。其中子属性包括“有正文”“有辅文”“有封面”“有附件”“有包装”以及“有广告”;
(2)“有正文”的二级子属性还包括“有章”“有节”和“有文章”;
(3)目次、目次栏目和目次项之间存在的关系包括“有目次项”“有目次栏目”以及“指向”关系(或称为“链接到”);
(4)索引、索引栏目和索引条目之间存在的关系包括“有索引栏目”“有索引条目”以及“指向”关系;
(5)参考文献和参考文献项之间的关系包括“有参考文献项”和“指向”。
3.3 实例数据的表示
下面以图书对象为例,详细介绍实例数据的知识构成及表示。
3.3.1 图书实例的知识构成
图书实例数据由元数据、目次、内容主体、媒体对象等多类型实体组成,如图6所示。

图6 图书实例的知识构成
图6中标注在括号内的数字表示知识之间的关系,按序号从小到大的顺序分别为“有元数据”“有目次”“关联媒体”“有封面”“有辅文”“有插页”“有附件”“有广告”“有包装”“有篇”及“有章”,共11项关系。
3.3.2 篇章对象的表示
图书正文可分为3类结构,分别为独立成篇的正文、篇章结构的正文和章节结构的正文。
(1)单篇型的正文结构如图7所示。图书对象通过属性“有篇”与“单篇型篇”对象关联。

图7 单篇型正文结构示意
(2)篇章型的正文结构如图8所示。图书对象通过属性“有篇”与一至多个“篇章型篇”对象关联。

图8 篇章型正文结构示意
(3)章节型的正文结构如图9所示。图书对象通过属性“有章”与一至多个“章”对象关联。

图9 章节型正文结构示意
3.3.3 相关媒体对象的表示
“媒体对象”类源自DCOO,是指采用图像、音频、视频等传递或获取信息的一类数字内容实体。在PUBO中,由“媒体对象”派生出“文本文档”“动画”“光盘映像”“设计文档”及“排版文件”等多类型媒体对象子类。
如图6中的关系(3)所示,图书通过属性“关联媒体”与各类“媒体对象”关联。例如,某图书的PDF文件可以采用“媒体对象”的子类“文本文档”进行表示。
3.3.4 正文的内容单元对象
“内容单元”是PUBO新扩展类,派生自DCOO“构件”类。图书正文内容可按段落、表格、公式、图像、音频、视频、框图、列项等多类型单元组织。采用各类“内容单元”,可完整、准确地表达出版内容资源的正文结构及内容。
3.4 RDF/XML实例数据
以图书为例,基于PUBO图书子模型并采用RDF/XML[17]表示的实例数据片段如图10所示。出版社的域名设为“somepress.cn”,该实例数据的命名空间取值为“http://somepress.cn/data/pubo#”。设当前描述的图书本地标识符为“book-1”,该图书的整书PDF文件本地标识为“pdf-1”。

图10 图书RDF/XML简单样例片段
当前图书实例的对象类型为图书子模型定义的“XB19_Book(图书)”,通过属性“p5_associatedMedia(关联媒体)”与其整书PDF文件关联。图书书名由属性“x114_title(题名)”描述,图书版次由属性“xb2_editionNumber(版次)”描述。该图书的整书PDF文件的类型为PUBO所定义的“X49_TextDocument(文本文档)”,其格式由属性“x39_format(格式)”描述,其可访问URL路径由属性“p45_contentUrl(内容链接)”给出。
4 结语
由GB/T38371知识模型框架DCOO扩展得到PUBO基础模型,再进一步扩展得到PUBO各级子模型的过程,是一个出版行业知识模型标准化构建过程。PUBO模型体系的确立,既可服务于数字出版的数据规范化表示,还为知识的封装、存储、复用与交换提供了模型基础。
在构建PUBO模型体系的同时,提出了一系列相关的数据规范,包括模型的扩展机制、模型的描述方式、数据的封装格式、数据的存储与交换参考实现,以及模型和数据一致性检查方法等。这些相关规范为之后的模型构建及扩展工作提供了有效的标准化保障。
从应用的角度看,以PUBO为基础的相关规范可服务于数字出版应用数据的语义化表示与加工。出版机构可将传统的数字化加工与应用,转化为基于知识的、具备语义特征的领域关联数据的加工与应用,即从传统弱语义数据向强语义知识数据转换。在应用中,可从建立知识数据加工试点着手,逐步完善基于语义的出版内容资源数字化加工,有效服务多粒度的应用场景,以灵活易拆分的方式实现出版内容资源数据的复用与共享。
参考文献
[1]全国新闻出版信息标准化技术委员会.数字内容对象存储、复用与交换规范:第1部分对象模型:GB/T38371.1—2020[S].北京:中国标准出版社,2020.
[2]全国新闻出版信息标准化技术委员会.数字内容对象存储、复用与交换规范:第2部分对象封装、存储与交换:GB/T38371.2—2020[S].北京:中国标准出版社,2020.
[3]全国新闻出版信息标准化技术委员会.数字内容对象存储、复用与交换规范:第3部分对象一致性检查方法:GB/T38371.3—2020[S].北京:中国标准出版社,2020.
[4]全国信息与文献标准化技术委员会.信息与文献文化遗产信息交换的参考本体:GB/T37965—2019/ISO21127:2014[S].北京:中国标准出版社,2014.
[5]新闻出版广电总局新闻出版重大科技工程项目领导小组办公室.国家数字复合出版系统工程标准复合文档基础结构:GC/FH12—2017[S].
[6]Schema.org[EB/OL].(2020-06-15)[2020-09-20]..
[7]DBpedia.org[EB/OL].(2020-06-15)[2020-08-20]..
[8]BIBFRAME[EB/OL].(2020-07-15)[2020-08-27]..
[9]CIDOC CRM[EB/OL].(2020-06-25)[2020-09-2]..
[10]DCMI[EB/OL].(2020-05-01)[2020-09-02]..
[11]PREMIS[EB/OL].(2020-03-05)[2020-06-20]..
[12]FOAF[EB/OL].(2020-01-15)[2020-06-20]..
[13]PROV-O:The PROV Ontology[EB/OL].(2020-04-15)[2020-07-20]..
[14]Semantic Publishing and Referencing(SPAR)Ontologies[EB/OL].(2020-02-15)[2020-08-02]..
[15]Web Ontology Language(OWL)[EB/OL].(2020-05-15)[2020-07-02]..
[16]Resource Description Framework(RDF)[EB/OL].(2020-06-01)[2020-06-20]..
[17]RDF 1.1 XML Syntax[EB/OL].(2020-04-15)[2020-08-12]..