业内信息

融媒体时代网络百科索引的创新和实践探讨——以《中国大百科全书》第三版(网络版)为例

2021-04-19 来源:《传播与版权》
  【作 者】周宁:中国大百科全书出版社

  【摘 要】融媒体时代,出版环境发生了巨大变化,百科全书的出版面临新的机遇和挑战。索引作为网络百科重要的检索工具,其编制方法需要与时俱进。《中国大百科全书》第三版(网络版)是新型百科全书,是基于信息化技术和互联网进行知识生产、分发和传播的国家大型公共知识服务平台。文章通过对编制网络百科索引的探讨,以期对充分发挥网络百科的作用提供借鉴。

  【关键词】《中国大百科全书》第三版;网络百科;索引;数字出版

  在网络技术和信息技术的推动下,各应用领域的知识与信息资源飞速增长。在出版领域,文化产业与网络和信息技术的结合,使得知识的载体形式、实现手段、传播方式和管理理念都发生了革命性的变化,数字产品应运而生。面对丰富的数字知识和信息资源,要达到快速为用户提供正确、精简的知识目的,必须改变传统的信息服务模式,向知识服务转变[1]。知识服务是以知识资源为对象,依靠计算机、网络、多媒体等信息技术为手段的一种全新的信息服务模式,通过对信息知识的组织、关联、挖掘、重构,实现为用户提供个性化的智能服务。这是对传统知识服务的一次革新。基于Web2.0技术,网络百科凭借其知识更新快、覆盖面广的特点,成为人们查询知识的主要工具之一。

  2011年,国务院决定编纂出版《中国大百科全书》第三版,并要求通过建立数字化编纂平台,同时发布和出版网络版及纸质版。这是在传统媒体与新媒体融合的背景之下开始的一项重大文化工程。这项工程于2014年正式启动,一个突出的特点就是有准确、权威、便捷的网络版。《中国大百科全书》第三版(网络版)(以下简称三版网络版)是100多个执行学科的知识总汇,其信息量无疑是巨大的,而各个学科的知识又是以单独条目的形式存在,如果没有合适的索引指引用户,那么,用户就很容易陷入知识的汪洋大海。以心理学学科为例,如果没有单个学科精确的索引指导,读者很难快速了解到在三版网络版中心理学有哪些重要的学派流派,有哪些具有影响力的心理学家以及著作等。因此,为充分发挥国家大型公共知识服务平台的作用,出版机构有必要编制高质量的索引体系,做好权威知识内容的筛选、排列及有序化,从而让这些知识信息能够被用户精准地检索到,真正将网络百科打造成一个有中国特色、有国际影响力的权威知识宝库。

  一、纸质版与网络版索引比较

  百科全书被称为“人类知识的宝库”。索引对百科全书而言,其重要意义在于它从根本上增强了百科全书的工具书性质[2]。《中国大百科全书》已先后有两版纸质版问世,第一版按学科分卷出版,第二版按音序出版,两版都将索引作为重要的组成部分。从索引款目来看,纸质版索引主要集中在人名、地名、组织机构名、释文内重要的知识点等。这些款目来源于条目名称和释文内的知识点、图片等,主要依靠编辑对内容进行加工。而三版网络版是新型数字化产品,其网络索引的数据结构比纸质版要丰富得多,可包括条目名称,条目摘要,释文内的知识点、图片、音频、视频等多媒体资源以及重要的参考书目和推荐阅读。因此,网络版索引款目比纸质版索引款目更为复杂,能为读者提供更多便利。在标引深度上,考虑到读者需求与版面限制,纸质版索引通常按照一定的比例来编制,因此标引深度不能过浅,也不能过深;网络版索引则不受版面限制,可根据条目内容不断深入和细化,标引深度相对来说更深,还可尝试复式索引。此外,在检索方法、速度、成本及结果等方面,两者也有较大差异(见表1)。


表1 纸质版索引与网络版索引的区别
类别 纸质版索引 网络版索引
检索方法 方式较为固定 途径多样,多种检索方法灵活使用
检索速度 效率低,费时费力 高效快捷、响应时间短
检索成本 检索成本较高(需购买整本书) 检索成本较低(网费、按次付费)
检索结果 权威性高 可靠性相对较差

  尽管两者存在上述差异,但索引作为重要的检索工具,其意义是相同的,都是为了实现不同条目之间的相互关联,以及将分散在不同条目间的同一主题联系起来。总之,网络版索引可以在纸质版索引的基础上编制得更为丰富、精准、便捷。

  二、网络百科索引的设计与应用

  编制网络百科索引是一项庞大的工程,不仅涉及对现有知识体系的重新梳理,还要具有相应的计算机技术。三版网络版可从呈现方式、索引技术两个方面进行尝试。

  (一)呈现方式

  进入新时代,读者用户对知识的需求逐渐呈现立体化结构特点,表现在点、线、面的结合上。因此,网络百科索引可以按照分类索引与智能索引两类方式呈现。

  1.分类索引

  分类索引将知识按照分类号归类,既可减少用户的搜索时间,还能起到一目了然的作用。

  (1)字顺索引、笔画索引等分类

  此种分类索引与知识主题无关,可以根据用户习惯及需求,将网络百科知识资源打散,然后按一定规则通过计算机编排,再辅之以人工判断。例如,我们可以将知识内容按照从A到Z的字母顺序归类。通过字顺索引列表,用户可以直接检索到处于每个字母下的条目(图1)。



图1 字顺索引示意图

  (2)主题分类索引

  相对于非知识主题索引,按主题分类的索引在编制上就更复杂一些。主题分类索引是通过人的思维将知识主题进行有效组织,如按学科、专题或自由主题等层层递进。以学科主题索引为例,其可将人类的知识主题分为四大类,每个大类再细分成不同的子学科或门类(图2)。此种分类与教育部的学科体系较为匹配,读者可通过索引,方便快捷地查找到某一学科的知识框架及具体内容。



图2 学科主题索引示意图

  学科主题索引模式下还可以继续分类,例如,按照专题浏览,通过设置专题导航来指引用户(图3)。这种索引模式与某些网站的架构相似,专题索引就是不同的子频道。


图3  专题导航索引示意图

  除了按照学科、专题编制索引,网络百科索引还可以单独设置专项索引。专项索引主要包括人名索引、地名索引、书名索引、引文索引等。此外,网络百科索引还可包括字、词、句、分子式等特殊的检索途径[3]。无论是哪一种分类,其目的都是将知识内容归类,便于用户检索,区别只是在索引编排深度上。索引分类越精细,越考验编辑的水平。

  (3)多媒体数据索引

  与纯文本数据相比,多媒体数据的特点是内容丰富、直观、生动,可提供更多的有用资源,但资源越丰富,想要获得精确检索越困难。网络百科索引应充分利用多媒体数据,对信息资源进行有效组织,从而帮助用户快速获取真正感兴趣的数据,尤其是那些很难用传统文本来清晰表达的图像、音视频等。

  2.智能索引

  索引是一种检索手段,由于性质不同,其功能也有大小的差别。上述分类索引的目的在于满足用户特定的检索需求,而智能索引则更倾向于提供隐形服务,除满足检索需求外,还能使用户更加满意。

  (1)智能推荐索引

  智能查询推荐是一种交互检索方式,向用户展现与其可能意图相关的各种查询,并根据查询意图,区分清晰查询和模糊查询,既符合用户浏览习惯,又不加重检索负担[4]。例如,用户若想了解关于“开国大典”的内容,输入“开国大典”,智能推荐即可列出与其相关的其他条目(图4)。



图4 智能推荐索引模式

  (2)全民索引

  在网络信息时代,用户对信息的需求增加,每位用户都有自己的阅读习惯和爱好。在三版网络版中,编辑可向用户提供自行标引的功能,以发现用户的兴趣所在,从而进一步做好智能推荐。对用户感兴趣的标引进行二次开发利用,还可能带来索引新的发展方向。

  (二)索引技术

  无论是哪一种形式的索引,在海量的知识数据面前,仅靠人工的力量既费时费力,还可能出现遗漏或错误。因此,编辑通过输入一定的索引规则,使计算机按照既定的程序运算,同时辅助人工判断,能够使编制网络百科索引起到事半功倍的效果。

  1.计算机技术

  (1)链接系统


  不同知识主题之间的相互链接能够帮助用户寻检查阅。因此,建立链接系统的作用既在于能够把相互关联的条目或概念联系起来,又能减少知识主题不必要的重复,实现知识资源的优化配置。从链接信息的来源上考虑,链接系统可分为外部链接和内部链接。外部链接指条目内容与三版网络版之外的信息资源的链接,主要通过条目的扩展阅读功能实现。内部链接是三版网络版内部条目之间的链接,包括入口词链接、直接链接和参见链接。①入口词链接是将同一概念的异称或释文内某一概念可能为用户常常查阅的词做链接。前者如查询“孙文”,直接出现“孙中山”条目;后者如查询“两种信号系统学说”,直接出现“巴甫洛夫学说”条目。②直接链接指将条目释文内涉及的名称不同的某一概念的条目用不同字体或颜色加以链接。例如,“普通心理学”条目中提到的在近代心理学史上出现过许多重要的心理学思潮,如早期的构造心理学、机能心理学等。此句中的“构造心理学”“机能心理学”有单独列条,故通过热链变换颜色或变换字体,提示用户可对其进行检索阅读。③参见链接。某条目的释文中如提到某一知识点,可直接参见另外一个条目,例如“日心说”可见“日心体系”。

  在网络百科中,编辑要将链接系统中的上述关系处理好,以实现百科知识的全方位串联,生成知识图谱(图5)。以社会心理学条目为例,通过条目之间的相互链接关系,用户可查找到与其相关的所有条目。其中,有的是条目之间的直接关系,有的则是间接关系,由此,网络百科就形成了一个知识网络。



图5 知识图谱示意图

  (2)自动标引技术

  对数量极其庞大并以飞速增长的网络信息资源建立一套完整的索引,其工作量和难度是难以想象的。因此,三版网络版索引可依靠自动标引技术。自动标引的基本原理是借助一定的技术手段,如词典、词频特征、句法或结构特征等,设计一种算法对数字化文本进行词法分析,识别出词与非词、内容词和功能词,并采集词的相关信息。在此基础上,编辑要设计或确定内容词的加权方案,据此计算每个词的权值,进而确定标引词的权阈值,选出标引词。这种技术能够实现对知识内容的迅速筛选。

  (3)自动抽词词表

  网络的发展为用户提供了更加便捷的检索途径,无论是主题检索,还是字顺检索,都要求用户选用与后控词表中的条目名称或叙词完全匹配的语词,否则检索结果也许不能满足用户需求。因此,编制合适的汉语自动抽词词表也是必要的。编辑可通过建立关键词表、同义词表(包括完全同义词、减缩同义词)、主题词表、自由词表、人名词表、组织机构词表、地名词表等后控词表来实现自动抽词。

  2.人工判定

  无论计算机技术多么成熟、稳定,其索引结果最终都需要人工判断。同时,在编制索引时,编辑还需要健全控制语言和分类,搜集专业术语和促进标准化,并平衡各种标引。比如,个人标引与社会标引、特殊标引与标准标引、自由标引与控制标引、外行标引与专业标引。这就需要编辑对知识体系加深了解,对碎片化知识能够精准、精细地筛选、归类,使得网络百科的索引真正为读者用户服务,提高文化自信。

  三、结语

  随着网络技术的发展,信息的无序状态将会随之加剧。这使得网络索引成为一种广泛迫切的社会需求。三版网络版索引的编制,不仅对新型百科全书的推广及应用具有重要意义,还能促进索引数据库的进一步发展。这种新式的知识生产、信息组织的传播和服务模式将具有强大的生命力和影响力。

  参考文献

  [1]蒋玲.面向学科的知识元标引关键技术研究[D].武汉:华中师范大学,2011.

  [2]金常政.百科全书与索引[J].辞书研究,1998(04):142-148.

  [3]彭耀雄.索引与目录的对比研究[J].图书情报知识,1993(02):17-20

  [4]李亚楠,王斌,李锦涛,等.给互联网建立索引:基于词关系网络的智能查询推荐[J].软件学报,2011(08):1771-1784.

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号