业内信息

专业出版领域知识服务平台内容资源基础的构建

2018-05-04 来源:《编辑之友》
  【作者】鲁玉玲:山东女子学院学报编辑部
 
  【摘要】打造专业出版领域知识服务平台,首要任务是构建优质内容资源基础。要将出版社传统的内容资源转换成知识服务平台需要的知识资源,就要充分利用XML结构化内容单元、领域本体、主题词表来实现内容资源的知识组织,以满足知识服务平台的功能需求。挖掘整合行业资源,打造“深度短时阅读产品”的专业领域知识服务平台资源基础,是我国专业出版领域知识服务平台构建内容资源数据基础的发展方向。
 
  【关键词】知识服务;数字出版;XML;领域本体;主题词表
 
  随着互联网和信息技术的发展,时代对传统出版行业提出了迫在眉睫的转型要求——由内容提供商转型为知识服务提供商。尤其在专业出版领域,知识服务是挑战,更是机会。挑战是出版企业如何盘活海量历史资源,又如何基于已有内容资源优势打造适应当下互联网用户阅读习惯的知识服务平台。机会在于如果挑战成功,带来的将是比互联网企业、信息技术企业更具专业性和深度的内容资源优势的市场机会。从目前已有的对知识服务的研究看,主要集中于图书情报和档案等领域,出版领域尤其是专业出版领域相关研究较少,本文就专业出版领域知识服务平台内容资源基础的构建展开研究。
 
  一、国内外专业出版领域知识服务平台概况
 
  1、国外STMS出版商知识服务平台概况
 
  以施普林格(Springer)为例,施普林格出版社于1842年在德国柏林创立,以学术出版闻名于世,是最早将纸质书刊做成电子书刊发行的出版商,也是全球第一大科技图书出版商和全球第二大科技期刊出版商。其研制开发的科学技术和医学类在线全文电子数据库平台SpringerLink是一个较为典型的专业领域知识服务平台。
 
  该平台提供的核心知识服务非常简洁清晰:元数据及知识体系的多元检索、在线发布与获取和个性化定制等。简洁的知识服务背后,依托的是海量细分内容数据资源的支撑。该平台的资源特点主要包括以下几个:
 
  (1)专业领域资源海量、权威。施普林格不仅有自身出版物的优势,同时还整合了行业其他出版企业的优质内容资源,将施普林格平台真正打造为跨企业的行业平台,而非单一的企业平台。
 
  (2)内容资源以XML格式数据为基础支撑进行展示和重组。SpringerLink平台中资源的检索和展现均基于XML碎片化数据。XML数据不仅提高了内容定位及全文检索的效率和准确性,同时也为内容重组衍生出新的增值产品提供了数据基础。
 
  (3)知识体系与内容单元实现关联。SpringerLink平台内容资源不仅进行了XML结构化拆分,更进一步将图书的内容单元(篇、章、节)、期刊内容单元(文章)以及对象数据(图片)分别按照学科知识体系进行知识关联。用户可以根据学科导航,直接定位相关的内容单元。
 
  2、国内专业出版领域知识服务平台构建概况
 
  我国出版企业的数字出版转型虽然较欧美要晚,但是发展迅猛。除像CNKI同方知网这样的汇集各领域学术期刊和学术论文资源的综合性知识服务平台外,各专业领域出版社也积极申报建设了一系列的转型升级项目,具备了一定的数字化资源基础。他们充分发挥自身专业深度资源优势,打造了主打各自领域特色资源的知识服务平台。如社科文献出版社的皮书数据库、列国志数据库、一带一路数据库,人民卫生出版社的人卫智网及水利水电出版社的水电知识网等。当前,国内专业出版领域知识服务平台内容资源构建主要包括以下几个特点:
 
  (1)充分发掘自身资源优势,领域不宽但很深入。如人民卫生出版社的人卫智网,它是人卫医药健康大数据智慧服务平台的官方网站,其基于自身资源细分领域,针对特定用户群体形成了专业数据产品,搭建了一个跨单位、跨地区、跨所有制运营的健康大数据智慧服务平台。
 
  再如社科文献出版社的皮书数据库产品,其基于社内核心出版物皮书系列资源的优势,通过数字技术对内容资源定制重组,建成了涵盖300多个主题的专业人文社会科学综合学术资源总库。该数据库产品充分发挥数字产品的功能优势,同时更加充分地挖掘皮书内容资源的价值。该平台内容资源基本囊括了社会发展的各个领域和层面,可以高度满足经济学、社会学等相关学科的实证研究。
 
  (2)内容资源以XML格式资源为支撑进行展现和智能检索。目前国内专业领域知识服务平台的内容展现,均以XML格式资源做数据支撑,实现了流式展现和全文定位检索、多数据库跨库检索等智能检索功能。XML格式数据的优势在于节省存储空间,应用和展现方式灵活,适合多种终端设备阅读。同时,检索效率高且定位准确,还可实现智能复合检索。基于XML格式资源的智能检索围绕两个层面实现:第一,缩短知识获取的时间,加速知识循环。任何一个知识服务平台系统在长期建设后,必将面临知识过量的问题,需要提供更有效的知识检索应用手段;第二,提供多角度、多手段的知识获取方式,同一个知识点应提供不同的演进路线,用户无论从哪一个角度进入都应该能找到同一个内容。因此,当前在专业出版领域的知识服务平台搭建实践中,各专业出版机构为满足用户的个性化知识资源使用需求,纷纷尝试在实现普通检索的基础上,采用开源的检索引擎Solr支撑,并支持基于SolrCloud的分布式扩展,通过该技术对XML格式资源内容的解析实现智能检索功能。
 
  (3)探索在领域本体和专业词表构建基础上开发深度知识服务产品功能。部分专业出版社在知识服务平台的建设中已经开始探索以知识图谱的形式直观展示领域应用知识体系,基于体系图可直接点击检索知识点相关内容资源。如中国建筑工业出版社的“建筑结构与岩土工程专业知识资源库”平台通过系统内构建的建筑结构与岩土工程专业领域词表支撑提供前台的关键词智能检索功能的知识图谱可视化展示。
 
  二、专业出版领域知识服务平台的核心是内容资源基础
 
  1、内容资源基础:出版资源XML数字化
 
  对国内大多数出版机构来讲,其在数字出版业务方面面临的最大问题是结构化XML内容资源不足,导致无法满足知识服务对海量数字出版内容资源重组和应用的需求。这也是专业出版机构实现由内容提供商向知识服务商转型亟需须解决的问题。
 
  拥有丰富内容资源的出版机构在知识服务平台构建方面有着天然优势,但当前多数出版机构对资源的储存和应用仍处较低水平。在基于知识组织的知识服务平台构建过程中,对内容资源的结构化加工应以知识单元为单位来组织。通过对文本资源中的知识单元的挖掘,以及对音频、视频等多媒体资源的整合,完成对跨媒体形态的数字内容进行的以知识提取、主题聚类为目的的深度标引和结构化整合,进而生成可复用的包含多种媒体表达形式的知识单元集。这种细知识粒度的拆分不仅可以把对知识的控制单元深入到文献资料中的数据、定义、图表等最小的独立知识单元,还可以赋予它们多种媒体形态,充分挖掘出出版物内容中的显性知识和隐性知识,进而衍生出新的增值产品。这种通过出版资源XML数字化再形成新的增值产品的方式在专业出版领域已有不少尝试,如电子工业出版社的“IT知识库”就是基于这种XMI化的出版内容资源将图书拆成知识条目,进而提供相关专业知识服务的。
 
  2、知识体系资源基础:领域本体
 
  (1)领域本体的内涵。领域本体是特定领域内提取的概念(知识元)间的关系的规范化说明,是建立在概念(知识元)基础上的知识组织。领域本体清晰地将领域知识个体用关系网的形式表达出来,并对概念及概念关系加以明确说明,为知识服务平台的知识体系表达提供了一种结构化、直观化、形式化的手段。
 
  (2)领域本体在文献资源知识组织中的功能。领域本体对概念的定义能力和对概念关系的描述能力,使其成为一种强大的语义分析基础与知识组织和表示方法,并成为数字出版知识工程的重要工具,在知识应用、表达、智能检索、异构信息处理等方面体现出诸多优势。第一,对领域知识进行结构化组织。专业出版社在对碎片化数据资源重组时,多利用领域本体对专业领域文献进行语义标注,重构数字化的内容资源;此外,还可以利用它与其他元数据和语义信息进行智能检索和推理,在此基础上提供增值的专业领域知识服务。第二,可视化地表达知识。领域本体能以网状结构图形详细且可视化地表达领域知识间的丰富语义关联,依照其知识体系把检索结果展示出来。第三,实现知识重用和语义共享。领域本体是由领域概念及其关系构成的完整的领域概念体系,不仅能清晰地表达出领域知识结构,还可以为各知识系统间的知识共享和重用提供手段。第四,实现语义导航。领域本体拥有严密的知识组织结构,可以自动将检索词映射到其相关词和关系词上,这不仅可以满足用户的搜索意图,还可拓展用户的搜索思路。同时,领域本体是知识服务平台实现知识服务功能的核心,借助它,可以建立起用户和信息源间的统一语义模型,而基于领域本体的用户语义模型能够根据用户背景提供精准的科技检测、知识问答、决策分析、交流合作等各种个性化知识服务。如根据部分养生类图书内容资源构建的领域本体及其主要类关系,可实现养生健康类知识及务平台的各种个性化知识服务。
 
  3、内容与知识体系关联基础:主题词表及其与领域本体在知识服务平台中的共同应用
 
  (1)主题词表的内涵和作用。主题词表又称叙词表,是文献与情报检索中用来标引主题的一种检索工具;相对于自然语言而言,它是一些规范化、有组织、体现主题内容且已定义的名词术语的集合。在数据录入时,主题词表可以帮助用户进行正确性校验;而在检索时,可利用主题词表实施交互式的导航检索、智能化及多语种检索等。
 
  (2)主题词表和领域本体在知识服务平台中的共同应用。主题词表和领域本体的相互关联之处在于它们都涉及使用某一专业领域的概念系统和术语间的语义关系,都可用于信息编目和信息组织,皆试图依靠概念系统规则表达高度复杂的知识。但主题词表和领域本体又各有.特点,二者间存在诸多不同。但作为共同作用于知识服务平台的资源基础,本体和主题词表又互相作用,缺一不可。专业出版社在大数据存储和管理方面多采用领域本体和主题词表相结合的方式构建数据分类管理体系。
 
  4、资源构建及应用模型
 
  专业出版领域知识服务平台资源构建的核心是基于知识体系和领域知识应用关系关联出版内容资源,根据某知识元或主题词即可获得关联资源,并获知资源间关系。如何实现这一核心功能,笔者在长期的实践中总结观点如下:
 
  (1)实现出版资源XML结构化,突破“本”的限制,获取以“篇、章、节、文章”等为单位的内容单元。
 
  (2)基于内容单元进行语义训练,抽取领域主题词(包含知识元个体)。
 
  (3)基于知识元个体进行应用关系梳理,得到领域本体;基于主题词进行知识体系聚类梳理,得到主题词表。
 
  (4)通过领域本体和主题词表,即知识元的应用关系和主题词的知识体系关系,关联内容单元和出版资源。这样即可通过知识元或主题词获知关联知识单元或关联书报刊资源。
 
  电子工业出版社的一款基于移动端的电子技术类知识服务产品“E知元”便是此类应用模型的一个较为成功的尝试。它采用知识图谱方式构建新型知识体系,以一种创新的知识服务模式,采用“内容+终端+平台”商业模式,将用户、渠道和内容生产者完美融合,推动产学研用知识链中信息流与知识流的整合。该产品涵盖10000+知识元、20000+知识条目、40000+知识图表、10000+关联关系和200000+知识标签。其知识元具有完备知识表达且无须分割的知识,由知识元名称及其属性空间构成;知识地图以可视化图形的方式展示知识元之间的关系,设三级相关度进行显示;知识束则为学习某个知识或技能主要的知识元及其次序。
 
  三、我国专业出版领域知识服务平台内容资源基础构建展望
 
  1、发挥专业出版内容资源优势,打造“深度短时阅读产品”
 
  随着互联网时代的到来,普通信息服务以“短、平、快”的特点迅速征服了用户,一度给传统出版造成冲击。但是,随着互联网技术在出版领域的应用,以及数字出版的迅速发展,传统出版业发挥自身深度资源的优势,搭乘信息服务的技术快车,也找到了一条适合自身发展的大好出路:构建知识服务平台,打造区别于简单信息服务的“深度短时阅读产品”。
 
  出版单位的内容资源基础积累有三个阶段:一是传统出版物阶段,存储的是书、报、刊、音像制品等传统介质的出版资源;二是数字化出版物阶段,存储的是经过一系列数字化转换加工的XML结构化资源、EPUB、PDF等电子书资源;三是知识资源阶段,通过领域本体和主题词表关联文献资源,并对知识进行智能重组和分析,挖掘隐性知识价值,实现知识增值。
 
  “深度短时阅读产品”的服务特点如下:
 
  (1)基本服务。基础用户服务。普通用户注册账号后,可以注册邮箱、上传学术成果、创建个人资料等;管理员用户可以创建内部用户账号,并对其实施管理,配置角色和权限等。各种导航服务。既可以根据内容主题和学科分类进行导航,也可以根据资源类型、搜索路径、相关知识和引用知识进行导航等。搜索服务,用户可以通过元数据定位检索、作者检索、主题检索等各种检索方式搜索全平台内容资源。灵活的支付方式,提供线上或线下的支付管理。
 
  (2)个性化服务。个性化知识检索。首先通过跟踪用户的检索和浏览记录,分析用户知识需求,掌握用户的专业方向,建立起用户需求模型库;然后对内容资源进行语义标引和结构化表示,给用户提供与其需求一致的内容。个性化导航,需要借助于知识分类体系、主题词表、领域本体模型等来实现,而且需要预先对内容资源进行聚类、标引、关联等深度挖掘。该服务旨在帮助用户在海量的资源中定位出要搜索的知识,并为其提供一条到达目标知识的浏览路径。实现知识推送服务,需要在对不同来源和异构的知识进行合理组织和表示的基础上,深层次挖掘内容资源,并通过对用户行为数据的挖掘和记录,建立用户个性化知识需求模型,然后据此主动向用户推送其所需要的知识内容。知识定制服务即是在用户预定知识库界面和知识需求的情况下,自动将平台匹配的知识内容推送给用户。
 
  (3)知识问答服务。知识问答是指用简洁且准确的自然语言回答用户提出的问题,可以有效满足用户准确、快速地获取知识的需要。这种类型的服务设置适合专业词典类、百科全书类知识资源的知识服务应用场景。
 
  (4)专题知识库产品服务。专题知识库产品服务是指根据学科或主题将知识服务平台中的各种内容资源组织成专题知识库产品,并利用知识挖掘和知识提取功能个性化配置这些内容资源。专题知识库产品服务可为用户提供出版社专业内容的知识集成产品。在此基础上,还可借助文本热点分析技术、文本聚焦技术等为用户进一步提供专业研究课题推荐服务,对于专业领域研究型用户有很大的潜在市场需求。
 
  (5)决策、预测咨询服务。智库建设是知识服务的一个重点建设方向,也是政府大力倡导的国家文化实力建设的重要战略之一。把深度调查研究和集成知识分析成果结合起来,不仅可以为用户提供决策咨询服务,还可以为用户提供行业、学科专题和发展趋势预测等。专业出版社在国家推进智库建设的大潮中要勇于争先,充分发挥自己的专业优势,贡献自己的一份力量。
 
  2、融合行业资源,构建知识服务大平台
 
  专业出版社各自拥有看家的行业特色深度资源,依靠其打造一个行业知识服务平台,技术间题不难解决,最大的问题在于当前资源数量有限。所以,专业出版企业构建行业知识服务平台,首先要解决的就是整合行业各种资源。
 
  在这一点上,德国施普林格出版集团的SpringerLink在线全文电子数据库平台可谓成功典范。除通过商业合作整合行业资源的途径外,还可以考虑结合大数据挖掘技术对互联网资源进行知识采集。采集回来的外部资源经过出版社内部专业编辑的加工和审核,可作为社内专业内容资源的一种有效补充。借此也可在一定程度上缓解多数专业出版社内容资源存量不足的问题。为搭建行业知识服务大平台打好海量内容资源基础。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号