业内信息

知识服务中资源分类及资产标识规范研究

2019-11-21 来源:《科技与出版》
  【作 者】张倩影:中国新闻出版研究院;黄肖俊:北京方正阿帕比技术有限公司

  【摘 要】知识资源是开展知识服务的基础和重要载体。其中,专业领域的知识资源是尤其重要且更具社会效益和商业价值的部分。但国内外对专业领域知识资源的分类规范及其资产标识规范的研究相对缺乏,本文将对这两项规范进行研究,并给出具体建议。

  【关键词】专业知识资源分类;专业知识资源资产标识;规范

  近年来,出版界与图书馆界对知识服务越来越重视。知识资源是开展知识服务的基础和重要载体,专业领域的知识资源是其中尤其重要且更具社会效益和商业价值的部分。对于出版机构来说,如何对专业知识资源进行分类管理及交易是一个新兴的课题,值得出版机构,特别是专业领域的出版机构重视。其中,对于专业知识资源分类及资产标识的规范的研究需要重点关注。

  1  国内外专业知识资源分类及其资产标识研究情况

  总体说来,在专业知识资源分类方面,国内外都有一定的研究,但目前还没有一个权威的成果和结论。[1]

  1.1  国外专业知识资源分类研究情况

  国外对知识库有着长期且深入的研究。其中,与专业知识资源分类相关的最主要的研究是知识库本体研究。例如,早期的语义网项目DBpedia[1],采用RDF三元组的方式进行内容组织,通过本体构建知识库,其本体分类[2],以owl:thing(事物)来描述DBpedia本体中所有涉及事物的总体,进而在owl:thing之下进行再分类,包括地点、人物、作品、物种、组织等。需要注意的是,从DBpedia3.7版本起,知识库的本体是一个有向无环图(directed-acyclic graph),而不是树形图。

  国际上关于网页的标记及分类也有一个标准Schema.org[3],由Google、Microsoft和Yahoo!等著名的搜索引擎公司协作制定。其目的是创建一种主要搜索引擎都支持的结构化数据标记架构,以便为用户提供更好的网络体验。Schema.org规定,标记的通用类型为thing(事物),在此之下分为CreativeWork(创造性作品)、Event(事件)、MedicalEntity(医药实体)、Organization(组织)、Person(人物)、Place(地点)、Product(产品)等。

  此外,图书馆文献服务领域还有多种传统文献分类法,如杜威十进分类法(Dewey Decimal Classification,简称DDC)、美国国会图书馆分类法(Library of Congress Classification,简称LCC)、国际十进分类法(Universal Decimal Classification,简称UDC)等,这些都是经过长期实践检验的图书文献分类法。

  1.2  国内专业知识资源分类相关研究

  国内在通用的知识资源分类方面也有相关的研究,并形成了《知识资源通用类型》标准规范[4](GC/ZX22—2015);同时,国内图书馆也通过《中国图书馆分类法》(简称中图法)对图书、文献进行分类,目前中图法还在持续更新之中,最新的版本为中图法第五版。

  1.3  国内外专业知识资源资产标识研究现状

  然而,在专业知识资源资产标识方面,国内外还缺少有针对性的研究,只是在一些相关领域开展了研究。如数字对象唯一标识符[5](Digital Object Identifier,简称DOI)是由国际数字对象识别符基金会(International DOI Foundation)管理和维护的、全球通用的数字资源标识、链接标准,此标准具有国际通用、全球唯一、终身不变特点的数字资源标识符。近年来,国内还研制了数字版权唯一标识符DCI体系[6](Digital Copyright Identifier),该体系是由中国版权保护中心提出并建立的标识体系,其目的是在数字网络化环境下建立数字内容标识并为版权管理及保护提供解决方案。目前,此标识体系由中国版权保护中心运营和管理,已正式提供登记、标识、解析等服务。

  从以上分析可以看出,在专业知识资源分类及资产标识规范领域仅仅有相关研究,还没有全面的、深入的、有针对性的研究。

  2  专业领域知识资源分类规范研究

  从内容组织和出版的角度来看,除了采用传统的文献资料分类方法(如杜威十进分类法、中图法等),专业领域知识资源还可以从知识资源通用类型、专业级别、形态、来源、所属学科等多个维度进行分类。

  2.1  从通用类型维度进行划分

  专业领域知识资源可以从通用类型的维度进行分类。如,工程标准GC/ZX22—2015《知识资源通用类型》,借鉴了经济合作与发展组织(OECD)关于知识的四种分类:事实、原理、技能、人际。后考虑到可操作性问题,修改为事实型、数值型、概念型、原理型、技能型、规则型六大类。具体分类方式见图1。



图1  知识资源类型框架

  2.2  从专业级别维度进行划分由于专业级别的不同,专业领域知识资源的应用领域和应用方式会大有不同。从专业级别维度对专业领域知识资源进行划分,可以分为基础研究、应用研究和科普三类,具体分类方式见表1。

表1  专业级别维度分类
序号 分类项
1 基础研究
2 应用研究
3 科普

  2.3  从资源形态维度进行划分

  专业领域知识资源可以从资源形态维度进行划分,具体分类见表2。


表2  资源形态维度分类
序号 分类项 细分类项
1 学术期刊
2 专业图书 工具书
教材
专利
成果
标准
其他专业图书
3 知识资源数据库
4 知识元

  近年来,除了学术期刊、专业图书,数字出版领域通过开展知识服务构建了不少知识资源数据库,以及大量的知识元。知识元指的是在一定范围内,表达一个完整事物或概念且不必再分的基本知识单位。

  同时,专业领域知识资源的资源形态还在快速发展,可能会出现目前所没有提到的资源形态,因此将“其他资源形态”列出,以保证此分类的完整性。

  2.4  从来源的出版物维度进行划分

  目前的专业领域知识资源,有很多是来自传统的出版物或新型数字化的资源。因此,从来源的出版物维度进行划分也非常有必要。具体分类方式见表3。


表3  资源形态维度分类
序号 分类项
1
2
3
4 音像制品
5 电子出版物
6 其他(如互联网出版物等)

  2.5  从学科维度进行划分

  专业领域知识资源是服务于学科专业的,因此从学科的维度对专业领域知识资源进行划分是十分必要的。

  目前,学科分类有国家标准,即GB/T13745—2009《学科分类与代码》。根据该标准,学科维度共设5个学科门类、62个一级学科。其中,5个学科门类分别是A自然科学、B农业科学、C医药科学、D工程与技术科学以及E人文与社会科学。二级学科及三级学科的具体情况见GB/T13745—2009。

  2.6  从载体形态维度进行划分

  各专业领域知识资源,其载体形态有很大不同。从载体形态的维度进行分类情况见表4。


表4  载体形态维度分类
序号 分类项
1
2
3 音频
4 视频
5 复合形态
6 其他

  其中,复合形态既可以是类似PDF版式文档的图、文复合形态,又可以是融合了图、文、音视频等多媒体内容的课件,甚至可以是交互的富媒体内容。

  综上所述,我们从知识资源通用类型、专业级别、资源形态、来源的出版物、学科、载体形态等多个维度对专业领域知识资源进行分类,在某种程度上,形成了从出版视角对专业领域知识资源分类的多维度的分类规范。这对专业领域知识资源的分类规范研究也会起到促进作用。

  3  专业领域知识资源资产标识规范研究

  3.1  资产标识设计需考虑的因素

  专业领域知识资源资产是数字资产的一种,对其标识符结构的研究需要考虑到多个方面:

  首先,既然专业领域知识资源资产属于资产,则其必定属于某个或某些主体,因此需要对主体进行划分和标识;

  其次,资产所属的主体包括机构或个人,机构可以通过统一社会信用代码进行标识,个人可以通过身份证号码进行标识。但考虑到身份证号码涉及隐私,应该使用其他方法进行标识;

  最后,为便于使用,需固定标识的长度,且不宜过长。

  此外,因为资产涉及交易,所以对专业领域知识资源资产标识的设计,是在专业领域知识资源的唯一标识符(如DOI等国际通用标识符)的基础上再添加交易方的编号、交易号等要素。但这种方式形成的唯一标识符不仅依赖于资源的唯一标识符,且其长度通常不固定。同时,若该资产在尚未交易的情况下,需要使用另一套表达方式,这也会引起诸多不便。

  3.2  资产标识结构设计

  资产标识符在使用过程中需考虑唯一、宜标识、方便、可行等因素,因此专业知识资源资产标识可以采用如下方式解决这些问题:标识由1位类型标识符、18位拥有者代码、10位拥有者内部资产编码和1位校验码四部分组成,结构见图2。



图2  专业知识资源资产标识结构

  专业知识资源资产的每个标识由30个字符构成。其中,前29个字符的取值范围是0—9和A—Z。第30个字符为校验码,取值为0—9、字母A—Z及“*”。

  标识符具体结构如下:

  第一部分,类型标识符(1个字符)表示专业知识资源资产拥有者的类型。“0”表示专业知识资源资产属于机构;“1”表示专业知识资源资产属于个人,拥有者代码为身份证号码;“2”表示专业知识资源资产属于个人,拥有者代码由系统生成和指定。

  第二部分,拥有者代码(18个字符)表示资产所属的机构或个人的代码。若拥有者是机构,拥有者代码是统一社会信用代码;若拥有者是个人,拥有者代码是身份证号码,或由专业知识资源资产管理系统指定。

  第三部分,拥有者内部资产编码(10个字符)表示知识资源资产在拥有者内部的编码。这是拥有者机构内部的专业知识资源资产编号,或个人编制的专业知识资源资产编号,其唯一性由拥有者机构或个人自行保证,其结构由拥有者自行确定。

  第四部分,校验码(1个字符)用于校验,防止专业知识资源资产标识的错误传递。

  3.3  资产标识使用说明及示例

  为了将专业知识资源资产标识精确转换为人工可读的格式(由人来识读或者书写的格式,如标签、物理载体、技术文档,而非由数据处理器识读或书写),标识前可标明“PKRAI”字样,即Professional Knowledge Resource Asset Identifier的缩写。

  专业知识资源资产标识的示例见图3。



图3  类型标识符为“0”的PKRAI示例

  图3类型标识符为机构(北京大学),统一社会信用代码为“12100000400002259P”,机构内部知识资源资产编码为“2020000001”,校验码为H。

  3.4  资产标识设计的优势及意义

  通过以上方法,对专业知识资源资产进行标识,标识符的长度固定且便于标识,具有以下优点:

  第一,标识长度固定且有限,便于使用;

  第二,标识与交易无关,只要拥有该资产,就可以进行标识;

  第三,资产的拥有者可自行编制完整的标识,与其他拥有者互不影响;

  第四,标识可保护个人拥有者的隐私。

  4  专业知识资源分类及其资产标识规范的应用与展望

  目前,专业知识资源分类规范及专业知识资源资产标识规范的研究成果已经在国家重点研发计划“文化内容资源产权交易技术”项目中得到应用,并形成了相关标准。同时,在专业知识资源资产管理与交易服务系统中,实现了对专业知识资源分类和专业知识资源资产标识的规范,并产生了良好的效果,未来也可应用于更加广泛的领域。

  参考文献

  [1]DBpedia Ontology[EB/OL]. [2019-05-07]. .

  [2]DBpedia Ontology Classes[EB/OL]. [2019-05-07]. .

  [3]schema.org中文站[EB/OL]. [2019-05-07]. .

  [4]GC/ZX 22—2015知识资源通用类型[EB/OL].(2015-11-23)[2019-03-10]. .

  [5]Digital Object Identifier System[EB/OL].[2019-05-07].

  [6]吴洁明,周倩,许传祥. DCI体系下数字版权管理服务平台的设计[J]. 计算机应用与软件,2014,31(4):62-65.

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号