【作 者】赵宏源:上海数字世纪网络有限公司
【摘 要】在融合出版背景下,内容标引作为出版物内容传播的基础,作用更加突出,从知识关联、智能化推荐、搜索引擎优化到内容交付都有赖于完整的内容标引体系。文章根据融合出版内容运营的特征,提出构建包含知识元标引、社会标引、隐性知识标引在内的标引体系,以及基于内容交互的标引动态更新,以满足用户不同场景的使用需求。
【关键词】内容标引;知识元;社会标引;隐性知识;内容交互
一、前言
内容标引是对内容进行特征提取和标识引导的过程,它的目的是揭示内容特征,便于集中同类的内容,区分不同的内容,为相关内容建立联系。[1]传统出版物的内容标引受限于载体,所以多数侧重于内容的外部特征,例如标题、关键词、作者、作品分类、载体以及出版者等。
随着融合出版发展的逐步深入,传统出版格局被打破,内容生产呈现新的特征:首先是内容生产主体多元化,传统意义上的作者、读者乃至编辑的角色界限逐渐模糊,用户生产内容(User Generated Content,简称UGC)、专业生产内容(Professional Generated Content,简称PGC)、职业生产内容(Occupationally Generated Content,简称OGC)以及设备驱动内容(Device Generated Content,简称DGC)等多种内容生产模式不断涌现;其次是内容需求的细分化与场景化特征明显,既包括所谓高级外行的好奇型[2]、初入行的系统型、在行的专业型等不同需求,也包括沉浸式、伴随式和陪伴式等不同场景;再次是交付形式的多样化,既有文字、图像、音频、视频以及AR/VR等不同形式,也有融这些交付形式于一体的综合形式;最后是内容交互的重要性突出,通过内容交互实现知识的内化、吸收与转化,推动知识的输出与创新。
在这种情况下,内容标引的重要性更加突出,基于定位导航的知识关联体系构建、基于用户场景分析的智能化推荐、基于内容交付的内化吸收,以及基于关键词设置的搜索引擎优化都有赖于完整的内容标引体系。
二、内容标引对于融合出版的重要性
1.构建知识关联体系的前提
内容标引具有的特征描述功能是构建知识关联体系的前提。知识关联是指构成知识系统的知识节点与节点之间的联系,是使各相关节点间形成意义系统的联系[3],可实现知识的定位与导航,提高知识转化效率,构建用户的知识体系。从某种意义上来说,知识关联本身也是一种知识,即知识关联兼有工具和知识双重属性。[4]根据关联对象不同,知识关联可分为知识之间、人与知识之间以及人与人之间三个层次。
融合出版背景下,内容的生产主体、传播模式、输出方式等迥异于传统出版时代。生产主体多元化,任何人或者组织都可能成为生产主体;传播行为可能出于利益也可能出于兴趣,发起人可能是利益相关者也可能是无关者,传播路径摆脱了对载体的单一依赖;输出方式则存在主动输出与受激输出(即针对指定作品交互所产生的内容输出)、系统输出与碎片输出、内容输出与态度输出(如转发、点赞等)。在这种情况下,内容标引范围得到大幅扩展,即从单纯的内容整体标引扩展到知识元(不可再分割的具有完备表达的知识单位[5])标引,从特定作者扩展到所有内容输出者。
标引是选用确切标识反映内容的过程,实际就是概括内容特征的过程。融合出版背景下的内容标引,通过从不同视角对作品整体特征描述显示与其他文献的区分;通过知识元的特征描述反映知识元之间、知识元与整体内容之间的关系及其在整体内容中的重要性;通过对所有内容输出者特征描述反映内容输出者的研究方向、关注与兴趣、研究成果,以及在输出过程中的扮演角色和社会评价等。在对作品的内部特征、外部特征以及相关输出者标引的基础上,可建立作品之间、输出者之间以及知识元之间的关联关系,实现内容的完整交付。
2.精准匹配用户场景,实现智能推荐
内容标引的穷举性要求是精准匹配用户场景,实现智能推荐的充分条件。互联网语境中的场景是指基于特定的时空领域范围,围绕以人为中心,需求为导向,感知设备为载体,事件为表现形式的行为序列总和。它是人物、时间、空间、事件、背景等因素构成的统一体,它更加关注人类行为的时空立体感和行为事件的整体性和关联性,以便更好地理解人类生活方式、行为模式、思维范式等规律。[6]内容交付的有效性取决于内容与用户场景匹配的精准度。
融合出版背景下的出版物可以分为思想、表达与载体三个部分,思想指想法、概念、原则、客观事实、创意、发明和发现、程序、工艺和方法等。表达则是指对于上述思想的各种形式或者方式的呈现,例如文字、音符、数字、线条、色彩、造型、形体动作的表述或者传达等等。[7]思想通过表达最终所呈现的结果就是内容。载体指能传递能量或运载其他物质的物体,引申到出版行业就是指传递思想内容的工具,例如图书、报纸或者光盘等。
衡量内容标引质量的指标之一是穷举度,即标引时反映内容的全部主题,旨在提高查全率。[8]在融合出版过程中,内容标引的穷举度要求相较于传统出版物更高,既要反映内容的主题,也要反映内容包含的所有知识点;既要反映内容所体现的思想,也要反映内容所使用的表达方式;既要反映作者的完整信息,也要反映与之有关的交互信息;既要反映主文的全部特征,也要反映与其交互活动所产生的演绎或者解读等形式输出内容的全部特征;既要反映出版单位的信息,也要反映载体的相关信息。只有建立对内容完整的标引体系,才能找到内容的思想、表达、载体与用户使用场景的最佳匹配,实现智能化推荐。
3.有助于知识的高效交付
原国家新闻出版总局数字出版司副司长冯宏声认为知识交付应当追求其背后思想的有效到达[9],内容包括交付主体、输出形态、交付渠道以及交互体验等。交付主体包括场景表达、关联关系以及知识结构等;输出形态包括纸质图书、数字图书以及音频图书等;交付渠道包括实体销售渠道、互联网交易平台、硬件捆绑以及社交渠道等;交互体验指内容之间、内容与人之间以及人与人之间相互作用的过程。[10]知识交付的最终目的是为了提升用户对知识的内化与吸收效率。
融合出版背景下的产品交付从传统出版时代的实物交付演变为思想交付,即促进用户对知识的内化与吸收。交付的成功与否既取决于思想是否满足用户的需求,也取决于内容的表达体系是否完整并适合用户的应用场景。这个表达体系包括内容表达方式、知识关联关系以及相关的知识结构等。完整的表达体系有助于深化用户对知识的理解,并与已有知识形成关联,提升交付效率。
内容标引能够揭示作品的内容主题,概括和提炼作品的主题思想、技术方法,完整地表达作品包含的知识元和知识创新的关键性因素[11]。内容标引的过程本身就是再创作过程,具有知识属性。这种知识属性有助于用户快速、清晰地理解作品主题内容,做出合理的消费决策;有助于用户从作品中选择自己真正需要的知识点,提高交付效率;有助于用户与已有知识体系实现初步关联,加深对作品的理解与吸收,从而实现内容的高效交付。
4.优化搜索引擎
搜索引擎是指根据一定的策略,运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户的系统[12],主要目的在于帮助用户快速准确地找到目标信息。它与文献检索的区别在于:搜索引擎针对所有的互联网信息资源,文献检索只针对指定的数据库资源;搜索引擎处理的数据既包括结构化数据,也包括非结构化数据,文献检索只包括结构化数据;搜索引擎对搜索结果要求相似即可,文献检索则既要求检准率,也要求检全率;搜索引擎的检索途径既包括内容的外部特征,也包括内容全文,文献检索的检索途径则主要针对文献外部特征,例如文献名、著者、文献代码、载体等。
融合出版背景下的出版物内容摆脱了载体的限制,传播渠道、消费终端、盈利模式、生产方式以及交付形式相比传统出版物大大丰富,传播渠道既包括实物的流通渠道,又包括数字化的产品流通渠道,其中数字化产品流通渠道既有文字作品流通渠道,又有有声作品流通渠道,还有视频及AR/VR等作品流通渠道;消费终端既可以是零售终端,也可以是音频播放终端和视频播放终端;盈利模式则包括图书出版、内容付费、知识服务、栏目订阅、内容营销以及广告联盟等;内容生产涵盖UGC、PGC、OGC和DGC等多种方式;交付形式则包括文字、音频、视频以及AR/VR等等,且在交付过程中始终伴随着各种交互的发生。
合理化的内容标引结构,能够反映融合出版背景下出版物内容的上述变化,为用户完整呈现内容各个维度的特征,包括内容生产主体与相应的关联关系、社交关系,以及内容载体、交付形式、内容传播、应用终端在交互过程中所扮演的角色等。由多维度的内容标引确定的关键词根据搜索引擎的工作原理进行优化后,可建立索引库,方便用户搜索,提高用户搜索效率。因此,实现搜索引擎的优化,必须以合理的内容标引结构为基础。
三、构建内容标引体系
1.基于知识元的知识标引
知识元具有独立性、拓扑性和链接性等特征。独立性表示每个知识元都是一个独立的知识单位,都包含有知识点;拓扑性意味着每个知识元都有完整结构,包括知识元名称、知识元属性、知识元属性值,能够表示完整的知识内容;链接性指知识元通过链接可以创造新知识,是知识标引的基础。[13]通过知识元标引,用户可以直接查询和获取知识元或者组合知识元,实现有针对性的准确查询,提高知识利用率和学习效率,改善自己的知识结构,满足个性化知识需求。[14]因此从用户角度出发,内容标引体系的构建必须着眼于以知识元为单位的知识标引。
首先是根据内容的实际情况定义知识元结构。所有内容统一转换为半结构化数据性质的XML文档。知识元结构用标识、资源名称、分类、评论信息、关系描述、访问记录以及导航等七个部分来定义。[15]其中标识为知识元代号,具有唯一性;资源名称为知识元所属资源的名称,表明知识元的出处与链接;分类采取专业分类和属性分类相结合的方式,专业分类可以参考中图法,属性分类包括描述型和过程型两类,再进一步可细分为名词解释型、数值型、步骤型等;评论信息为用户对知识元的评论和批注;关系描述的是知识元与知识元之间的关系;访问记录指用户访问某一知识元的情况,包括用户名、时长与来源等;[16]导航用以实现知识元的链接功能。
其次是抽取知识元完成知识标引。从标题、摘要和关键词等定位知识元方向,识别知识元向导信息。例如标题、小标题、摘要、段首、段尾、结论以及引文中含有的特征词,如果特征词后引导的段落或者句子包含其描述的内容,则将其定义为知识元名称,引导的具体内容成为知识元内容。以知识元名称为向导,从正文中抽取含有该名称的若干特征句,对每个句中的知识元名称进行词频统计,并根据出现的位置进行加权,筛选出能够满足知识元结构的句子作为知识元,对作品进行标引。
最后是导入知识元库建立知识链。将获得的知识元导入知识元库,并在相关的知识元名称与知识元内容、知识元内容与知识元内容之间建立导航链接,使知识的组织结构从等级式变为网络式,形成完整的知识网络系统。
2.基于理解差异的社会标引
诚如莎士比亚所说“一千个读者,就有一千个哈姆雷特”,对于同一部作品,由于学习与经历背景不同,不同用户对作品的审视角度千差万别,对作品的评价看法、心得体会与应用目的各有不同。要完整获取用户对作品的解读信息,建立作者、出版单位(或者平台)和用户之间良好的信息反馈机制,加强用户对知识的吸收与应用,必须引入社会标引,即使用人们自己的词语描述网络信息资源的机制。这是群众自发性定义的非层级结构式标签分类。这种标引既是用户兴趣的表达,又是信息资源的描述,成为联系用户与资源的桥梁。[17]资源之间通过某种方式彼此相互连接,例如被同一用户标引、同一用户使用了同一标签的资源等,用户透过标签或者资源的社会网络相互关联。[18]从动机角度看,用户标引主要出于自我表达、组织行为、学习、寻找以及决策支持等作用。做好社会标引要从以下三个方面展开:
首先是垃圾标引的处理。垃圾标引的表现特征为高活跃度、指向域少、单一标签使用度高、单词标签使用量低、大量标引,通过这些特征及其他综合情况,可及时识别垃圾标引并快速删除,避免引起用户的不悦。
其次是标引结果的浏览设计。可采用聚类方法将标引分组,具有相近语义的标引自动聚类成一组,方便用户浏览。并在此基础上进一步优化,将多个相关的标引归结为一个概念,根据标引的长尾分布找到频率较高的标引,确定不同标引之间的语义包含关系。
最后是标签的推荐,以提高标引的准确度。在用户进行标引的时候,系统自动向其推荐标签。被推荐的标签可能是来自其他用户对同一资源所使用过的标签,也可能是自动标引所生成的经过加权处理的标签。推荐标签的主要作用在于引导,用户仍然可以根据自己的分析使用个人理解的标签。
3.基于内容交互的标引动态更新
内容交互指内容与内容之间、人与内容之间以及人与人之间的交互作用的过程。它的本质是沟通,根本目的在于实现思想的有效到达,具有反馈用户信息、促进内容交付效率、提高内容输出等多重作用,涉及选题、表达以及编辑、营销等诸多环节,是融合出版的关键环节。内容交互的核心在于内容输出。沟通过程本身就是内容不断输入和输出的过程;通过输入与输出的内容之间的比对、辩驳以及验证等交互行为,用户对内容的理解逐步深入,再与自身已有的知识体系关联,可实现更高层次的相对完整与成熟的内容输出。这种更高层次的相对完整与成熟的内容输出就是内容交互的结果。因此有必要把内容交互的参与者和输出内容一并考虑,实现标引的动态更新,为用户提供更完整的知识关联体系。
首先要从内容交互参与者角度区分创作者与参与者在不同内容中扮演的角色,并确定不同角色所对应的内容,厘清创作者与参与者之间的关系与交互频率。例如A创作了甲作品,B作为甲作品内容的读者发表了评论,同时B又创作了与之相关的乙作品,A作为乙作品内容的读者发表了评论,A与B产生了角色的交叉,同时通过不同作品又产生了交互。由于A与B在不同作品中所扮演的角色各有不同,有必要通过标引加以区分,建立两者之间的关联关系。
其次要从输出内容角度确认所输出内容是否具有标引价值,剔除垃圾内容、广告内容以及情感内容,并对内容抽取关键词或者提取知识元,进行相应的内容标引。同时要对内容的外部特征进行整体标引,对交互输出的内容与出版物主体内容之间的隶属关系以及两种内容思想的关系进行标引,厘清前者对后者逻辑上的辩驳、证实/证伪、修正或者反思等关系。
4.基于知识挖掘的隐性知识标引
隐性知识指主观的、基于长期经验积累、无法系统阐述的知识。隐性知识具有内隐性(知识高度个人化)、垄断性(难以言明和模仿,交流与转化较难)、难以流动性(不易模仿和传递)、学习的特殊性(难以规范化,只能通过行为观察)、指数增长性(随着知识逐步被获取和吸收,知识基础按比例不断增大,最终呈指数增长)等特点。[19]“隐性知识是所有知识的支配原则”,“从某种意义上说,人类知识归根结底是隐性知识”,“任何通过语言和其他表述形式呈现的明确知识,都依赖于隐性知识的存在,都必然有隐性知识作为支撑”。[20]因此实现用户知识真正的吸收,促进用户的知识输出,必须充分挖掘度个人化的隐性知识,再对其进行知识标引,构建隐性知识之间以及隐性知识与显性知识之间的关联。
隐性知识的标引通常采取隐性知识显性化的方式进行。具体方式包括三种途径:第一,个人主动提供,通过个人详细信息、经历、创作的作品以及交互过程中的内容输出等,从中选取标识个人的标签,例如教育背景、兴趣爱好、研究方向、从业经历以及发表作品和研究成果等;第二,他人评价,主要是在各种交互过程中周围人士对所输出的内容的各种评论、解读以及态度等,从外部视角做出更客观的评价;第三,系统自动发现,及时捕捉个人的隐性知识,例如人与人的互动过程中不自觉地显示出自身的某些技能等。[21]
四、结语
融合出版整合图书、期刊、互联网以及广播电视等不同传播媒介运营模式特点,用户在生产环节中的参与和交互、传播环节中的主动和分享、交付环节中的效率和体验等方面的要求都远远超过传统出版,呈现鲜明的时代特色。
融合出版背景下,必须全面考虑内容之间的多种关联关系,帮助用户构建较为完整的知识体系;根据用户场景实现精准的智能推荐,满足用户的个性化需求;挖掘内容之中隐藏的知识,完成内容的高效交付;反映出版物内容在互联网背景下的时代变化,优化内容的传播效果。这些都离不开内容标引体系的合理构建。
有别于传统的文献标引,融合出版时代的标引必须从最终用户的实际需求考虑,涵盖知识元标引、社会标引与隐性知识标引,完整反映内容交互过程中的变化创新,实现标引的动态更新,构建完整的内容标引体系。
参考文献
[1]何晶,任宁宁.基于内容标引的数据推送方案的探索[C].2009国际传输与覆盖研讨会论文集,2009:82-90.
[2]池书进.得到APP知识服务运营模式分析[J].出版参考,2018(5):8-9.
[3]文庭孝,刘晓英,刘灿姣,等.知识关联的结构分析[J].图书馆,2011(2):1-7.
[4]赵宏源.出版视域下的知识关联体系构建[J].中国传媒科技,2019(1):52-55.
[5]温有奎.知识元挖掘[M].西安:西安电子科技大学出版社,2005.
[6]武法提,黄石华,殷宝媛,等.场景化:学习服务设计的新思路[J].电化教育研究,2018(12):63-69.
[7]张菲菲.论思想与表达二分原则的产生[J]中国商界(下半月),2008(2):213-214.
[8]赵娟,田建良,刘鸣香.非纸质文献的标引与计量初探[J].河南图书馆学刊,2007(6):71-73.
[9]冯宏声.知识服务的冷与热、旧与新、本与末、长与短[EB/OL].(2018-08-01)[2019-07-03]https://mp.weixin.qq.com/s?__biz=MzAxOTY1Mzg1NQ==&mid=2650191304&idx=1&sn=a03bd17b2fa03d778bf23b07e24182fa&chksm.
[10]赵宏源.知识服务中交互的特殊性研究[J].出版与印刷,2019(1):6-12.
[11]滕洪松.学术论文关键词标引与知识元表达[J].情报探索,2010(8):32-33.
[12]顾潇华,姜亦强,崔涛,等.中文自动标引、全文检索及中文搜索引擎三者关系的探讨[J].图书馆学研究,2011(9):41-42,94.
[13]原小玲.基于知识元的知识标引[J].图书馆学研究,2007(6):45-47.
[14]温有奎,温浩,徐端颐,等.基于知识元的文本知识标引[J].情报学报,2006(3):282-288.
[15]张曾昱,徐坤.基于手机终端的免费网络资源知识元标引实践探讨[J].图书馆工作与研究,2015(12):106-109,112.
[16]许春漫.泛在知识环境下知识元的构建与检索[J].情报理论与实践,2014,37(2):107-111.
[17]熊雅萍,熊才平,葛军,等.教育信息资源用户标注模型构建及仿真研究[J].现代远距离教育,2017(1):36-43.
[18]杨青云,裴雷,吴克文.国外社会化标注系统中标注行为研究现状[J].情报杂志,2009(11):185-189,184.
[19]刘晓辉.基于隐性知识的图书馆知识服务模式研究[D].吉林:吉林大学,2010:1-62.
[20]顾勤.师徒制下的隐性知识共享[D].安徽:中国科学技术大学,2008:1-70.
[21]秦铁辉,汪琼.试论专家型隐性知识地图的构建[J].国家图书馆学刊,2007(2):58-62.