业内信息

浅析语义技术对传统出版的影响及发展策略

2017-01-23 来源:出版发行研究 李航

  摘 要:随着语义技术与出版业的结合,语义出版对传统出版的评价机制、赢利模式及出版内容等方面都产生了很大影响。语义出版是大数据时代出版业的一种发展趋势,在系统研究它对传统出版的影响及作用的基础上,探索发展语义出版的有效途径和前进方向,对我国语义出版的发展具有积极意义。
  
  关键词:大数据 语义出版 工具型资源
  
  一、语义出版的概念及内涵
  
  2009年,牛津大学的大卫·香顿(David Shotton)通过多项实验首次系统提出语义出版的概念。从广义上讲,语义出版可以定义为一种能够为数字出版物提供多样的阅读形式、丰富的内容以及构建相应的知识体系的技术手段。语义出版是在已有的数据上加上语义,也就是将数据赋予含义,增加数据间的关联性,从而实现信息使用的智能化。从概念上讲,语义出版是以语义技术及相关信息技术为基础,通过语义标记提高文章信息的关联度,促进文章的自动化获取,实现语义相关的文章间的链接,并提供获取文章内数据的可行性途径的智能化出版方式。[1][2]语义出版是一种借助语义网、自然语言处理、本体、信息可视化、网络开放协议等技术和标准构建的用于学术出版的系统架构。[3]
  
  在基础技术设施上,理想的语义出版的基础技术设施包括PDF、OWL、SPARQL等。[4]在实现语义出版的技术路线上,主要包括本体技术实现语义描述和关联数据技术实现外部链接。[5]语义出版的流程更为复杂,终极目的是“一次制作,多元发布”,在技术衔接上需要借助数据清洗、数据挖掘等手段。[6]
  
  在功能上,语义出版能够丰富期刊内容信息,对知识进行深度挖掘,提供知识关联信息,构建知识体系,帮助用户发现或验证新知识。[7]其基本功能包括自动识别本体,生成语义数据;自动识别实体,建立链接;以可视化形式勾勒文本结构;提供可操作的原始数据;开展多类型信息混合;利用参考文献链接原文;对语义增强客户端文本;开展个性化推荐;智能阅读等等。[3]语义出版通过信息的数字化,数字的知识化,知识的体系化[8]思路实现了将期刊内容变成活的知识工具,从而也实现了学术期刊工具化的出版模式。
  
  随着大数据与出版业的发展,语义技术越来越受到出版业的关注。2012年,欧洲学术出版会议的主题是“语义网、数据和出版”[9]。全球知名学术与专业出版商协会关注的热点之一是“语义网发展”[10]。语义技术在处理数据资源方面的功能优势越来越受到国际主流出版商的关注,并且在学术出版领域尤其是STM(科学、技术、医学)期刊出版领域发展迅速,基本上已经成为其主要发展趋势。可以说,语义技术带来的语义出版形式已经对传统的科技期刊出版产生了前所未有的影响和改变。
  
  二、语义技术对传统出版的影响
  
  1. 传统出版的局限性分析
  
  传统出版相对于语义出版具有一定的局限性,将传统出版物与语义出版物从内容、形式、结构形态等方面进行对比如下(见表1)。
  
  通过对比,笔者试图从以下三个角度阐述传统出版的局限性。
  
  (1)倚重人工化
  
  传统出版具有出版周期长、成本高、库存压力大等局限性,其原因之一就是传统出版更偏重于人工化。以期刊出版为例,其出版流程一般包括作者投稿、编辑初审、专家外审、编辑校对到公开发表等步骤。在这种出版模式中,以人工化工作为主,责任大,任务重,无疑会增加出版时滞。在选题和编辑初审的过程中,更多地需要依靠编辑的经验、水平和素养来判断,所以主观因素比较多。此外,在期刊和图书的选题前期,需要进行大量的信息采集工作,编辑采集到的信息通常是分散的、零乱的,需要经过筛选、识别和验证,剔除掉过时、重复、无效的信息。敲定选题后要寻找合适的作者,这也需要编辑搜寻相关作者信息。出版业作为一种涉及精神文明的产业,不可能完全自动化,但是在信息采集和信息处理等方面完全可以依靠技术减轻人工压力,提高工作效率,这是传统出版的局限性之一。
  
  (2)科技含量低
  
  传统出版的科技含量低,主要体现在三方面:一是观念上的局限,造成传统出版对人工化的倚重;二是缺少相应技术的开发和利用;三是科技的发展与出版业发展之间存在着时滞长、衔接差、融合度低等问题。例如学术期刊出版商,传统的赢利方式是转让或使用数据资源,缺少技术优势和技术含量。与语义出版相比,传统出版缺少信息分割技术、信息挖掘技术、信息链接技术、资源集成和大数据处理等技术。
  
  (3)数据资源不能充分利用
  
  社会在高速发展,科技在进步,信息交流越来越密切,与此同时,数据产生的速度和数量也在惊人地增长。传统出版对数据的利用和开发上的局限性,造成相当一部分数据资源被浪费,很多有效数据未被发现、利用甚至再利用。数据资源得不到充分利用,一方面会产生多次重复性劳动,造成人力、财力、时间上的浪费,另一方面会影响某个领域的信息交流、管理甚至决策。与语义出版相比,传统出版在数据挖掘和关联上的技术欠缺,造成数据资源不能被有效利用,更达不到数据的再利用和多次利用。
  
  2. 语义出版的优势
  
  大数据背景下,语义出版是数字出版的一个飞跃,对传统出版形式提出了更高的要求和挑战,同时,对数字出版的作用和意义也是空前的。其主要优势体现在以下三个方面。
  
  (1)出版内容的工具化
  
  首先,语义出版提升了文章的附加值,其中包括呈现一种新的表现形式,附加溯源和扩展阅读的相关链接,提供原始数据。其次,语义出版基于庞大的信息资源库和科学分类法,及对信息进行深度标引,实现智能检索功能,有助于用户快速获取、过滤、梳理、整合及再利用目标信息,提高检索效率。最后,具有语义增强功能。其主要通过智能检索、知识挖掘和关联链接等方式,在出版平台、出版物及阅读终端的不同层面,进行语义增强。同时,可以借助相关技术添加语义标签的方式,通过第三方提供出版物语义增强服务,如利用Reflect工具自动识别科学术语并提供相关解释资料。[1]
  
  (2)服务的个性化
  
  语义出版一方面可以发现和跟踪用户兴趣主题和特征,从而进行个性化推送或个性化定制服务。这种个性化服务能帮助编辑构思选题,例如京东根据自身电商优势,对用户的性别、年龄、兴趣特征及浏览、搜索记录等相关信息进行大数据综合分析后推出的《大卫·贝克汉姆》的选题,[12]就是运用语义预测为用户量身定做的出版活动,也是结合语义技术进行的按需出版、精准推送的成功案例。另一方面,语义出版可以根据词条检索功能,对检索内容按需重组[13]。例如安徽师范大学出版社和汕头大学出版社共同开发的“科普读物语义导航阅读”项目,可以在原有信息资源的基础上按照个性化要求,对信息重新组配形成新书。
  
  (3)操作的智能化
  
  语义出版赋予原有数据以含义,提升了数据信息的关联性、开放性和系统性,从而在出版领域实现了人机智能。这不仅能够提高用户的检索效率,便于用户更加精准、高效、便捷地检索、筛选和梳理信息,同时能够借助语义出版构建科学系统的知识体系,甚至找到具有情景的、科学权威的、综合时效的问题解决方案。
  
  3. 语义技术对传统出版的影响
  
  (1)影响力评价体系向多维度发展
  
  在传统学术期刊出版形式中,对期刊或文章影响力的计量统计多是通过引用量、引用率等指标进行的。语义出版能够实现多指标动态监测和多角度多维度指标评价。具体表现在,它可以根据检索的关键信息如作者、主题、基金、出版来源等,进行相关性计算,完成相关文献与知识单元的统计计量分析;还可以根据作者、文献、学科、基金等文献计量统计属性进行差异分析、因子分析及聚类分析等,计算出期刊、论文及作者的评价指标,探寻多维度指标构成的知识评价体系[6];还可以根据读者阅读、下载、转载、标记等使用情况进行数据跟踪,并结合其他数据统计形成新的学术期刊评价机制[7]。
  
  (2)赢利模式转向信息资源的深层加工
  
  对于学术期刊而言,出版模式的转变也带来了赢利模式的变化。传统纸质出版时代,学术期刊出版商的收入来源主要是发行收入和广告收入。数字出版时代,其收益以数据库资源的使用收入为主,会展、广告、在线教育等为辅助性收入。随着语义出版时代的到来,学术期刊出版商提供的产品将从数据库资源向软件工具型资源转化,其产品与服务将涵盖更多的技术研发与创新,有更多的自主知识产权。语义出版将学术期刊的赢利模式向基于丰富信息资源的知识深度挖掘、关联分析,发现及验证新知识等信息深加工领域发展。
  
  以爱思唯尔为例,爱思唯尔将为用户提供有情景的解决方案作为未来发展方向。从传统出版商到信息解决方案提供商,在语义出版领域爱思唯尔是技术的引领者,其数字业务占总收入的收益比也从2000年的22%上升到2012年的64%。语义出版不仅为其数字业务带来可观的收益,同时也解决了其在STM期刊垄断出版所带来的收入不稳定性问题。爱思唯尔在STM期刊出版业务上的垄断经营一度颇受诟病,许多国家接连发生的抵制运动以及出台的抵制政策,让爱思唯尔在数据库资源方面的高收入岌岌可危,语义出版让爱思唯尔在这一危机中寻找到了新的生机。优质的内容资源加上高耸的技术壁垒,能够让爱思唯尔在拥有更多技术创新和知识产权的语义出版领域继续保持强势经济增长的趋势。
  
  (3)出版内容向软件工具型资源扩展
  
  随着大数据时代的到来,各种文献管理软件、信息分析工具、情报分析软件等工具型资源被不断开发和使用。国际上主流STM出版商利用自己的资源优势不断开发信息检索、文献管理及情报分析工具等软件。如爱思唯尔的Scopus数据库和Scival套件,Thomson Reuters的EndNote文献管理软件及分析工具Thomson Data Analyzer、Essential Science Indicators 和Incites等[14]。语义出版将科学信息资源与语义技术相结合,将出版内容由科学信息资源向以科学信息资源为基础的软件工具型资源发展。语义出版实现的出版物工具化资源不仅能够满足传统数据库检索的需求,还能高效地为用户提供信息、主题提炼甚至能提供问题的解决方案。
  
  再以爱思唯尔为例,基于全球最大的医学信息库,以自主知识产权的分类法,建立的ClinicalKey医学信息平台在2012年发布,ClinicalKey首次在临床领域引入智能内容,用户不仅可以获取更人性化、可定制的信息服务,还能准确快速地检索到最新的、权威的临床答案。[8]以语义技术为核心的技术开发与创新,语义出版对信息的深度挖掘和关联分析,完成了计算机对知识点的深化联系及知识体系的系统构建,从而也实现了语义出版提供的智能化服务。
  
  三、语义出版的现状及发展策略分析
  
  目前,国外的大型出版机构及学术组织将语义出版作为重要发展战略进行了技术研发和应用实践。英国皇家化学学会(RSC)语义标注了旗下38种期刊,爱思唯尔建立ClinicaKey平台,汤森·路透集团推出Open Calais服务,维基百科用97种语言对350多万个条目设置了语义标签,微软与谷歌、雅虎、Yandex建立了语义化处理标准,纷纷试图在技术标准领域建立话语权。[13]
  
  我国也非常重视语义技术的研究。2002年,国家863计划将语义网技术列为重点支持项目,清华大学、东南大学、上海交通大学、北京航空航天大学和中国人民大学都是国内语义网及其相关技术的研究中心,[15]但其水平参差不齐。我国在语义出版领域的发展仍与国外有很大差距。《中国科协科技期刊发展报告(2014)》[16]指出,目前大多数中国科协科技期刊的自建网站,以及在中国知网、万方等发布的全文内容的数字化程度还处于1.0阶段,也就是电子化阶段。除了外部环境原因外,我国发展语义出版还存在初期资金投入庞大,信息处理和网络服务标准不统一等问题。目前,我国只有中国知网、万方、读秀学术搜索等数据库服务商和高等教育出版社、中华书局、人民出版社等少数几家出版社,及《解放日报》报业集团开展了语义技术的研发。
  
  语义出版将在组织、形式、内容,以及在信息传播和使用方式上对传统出版产生深远的影响。我国的语义出版仍处于发展初期,需要在数据库的建设和维护、技术创新及人才培养等方面做出更多的努力。
  
  1. 标准的建立与对接
  
  语义出版在技术上需要涉及很多的信息处理和网络服务标准,而标准体系的建设也是语义出版的基础内容之一。语义出版涉及互操作、数据交换、标识以及终端应用等标准体系。[17]而其中电子图书、多媒体和电子期刊等所应用的标准并不统一,而且数字出版物的描述、发布和互操作的标准也不统一。这一方面需要重视对信息网络服务标准的建设和规范,另一方面又需要努力做到与国际通用标准的对接。
  
  2. 加强基础数据建设
  
  语义出版是以原数据为基础的数据信息语义化,所以数据是语义出版系统架构的基础,而数据的数量庞大,类型也多样化,语义出版需要在复杂的数据中组建无数的知识单元,并形成知识库,并要实现数据间的交互操作实现关联链接。所以,在数据规划、数据库设计、数据存储以及数据安全等方面做好数据的基础建设就是为语义出版扎实了地基。
  
  3. 重视技术创新和人才的培养
  
  在当今信息技术不断发展的背景下,出版业对技术的要求也越来越高,语义出版将对传统出版产生深远的影响,它涉及社会网、语义网及文本挖掘等技术,技术壁垒较高。我国发展语义出版要重视科技创新,技术研发,要努力探索出更多的拥有自主知识产权的语义出版的核心技术,这样才能在语义出版领域拥有自己的话语权。同时,更应该重视对编辑出版人才的培养。而今的编辑出版业特别需要学术型、市场型和技术型的复合型人才,这是行业的需要,市场的需要,也是时代的需要。所以,应该重视对高层次的编辑人才的培养,做好编辑出版业的人才储备工作。
  
  参考文献
  
  [1]王晓光,陈孝禹. 语义出版的概念与形式[J]. 出版发行研究,2011,27(11):54-58.
  
  [2]余溢文,陈爱萍,赵惠祥. 基于语义网的学术期刊发展初探[J]. 中国科技期刊研究,2013,24(5):954-956.
  
  [3]翁彦琴,李苑,彭希珺. 英国皇家化学会(RSC)—科技期刊语义出版模式的研究[J]. 中国科技期刊研究,2013,24(5):825-829.
  
  [4]徐丽芳,丛挺. 数据密集、语义、可视化与互动出版:全球科技出版发展趋势研究[J]. 出版科学,2012,20(4):73-80.
  
  [5]李楠,孙济庆,马卓. 面向学术文献的语义出版技术研究[J]. 出版科学,2015,23(6):85-92.
  
  [6]周杰,曾建勋. 数字环境下的语义出版研究[J]. 情报理论与实践,2013,36(8):32-35.
  
  [7]彭希珺,张晓林. 国际学术期刊的数字化发展趋势[J]. 中国科技期刊研究,2013,24(6):1033-1038.
  
  [8]翁彦琴,彭希珺. 爱思唯尔(Elsevier)语义出版模式研究[J]. 中国科技期刊研究,2014,25(10):1256-1261.
  
  [9]APE2012:The Seventh International Conference“Academic publishing in Europe”[EB/OL].[2016-07-04]. http://www.ape2012.eu/.
  
  [10]Hot topics-Semantic Web[EB/OL].[2016-07-04]. http://www.alpsp.org/Ebusiness/Information/HotTopics/SemanticWeb.aspx.
  
  [11]吴思竹,李峰,张智雄. 知识资源的语义表示和出版模式研究:以Nanopublication为例[J]. 大学图书馆学报,2013,32(4):102-109.
  
  [12]张炯. 大数据引领的三种新型出版模式之实践[J]. 出版发行研究,2014,30(7):65-68.
  
  [13]潘安,韩敏. 语义出版与编辑作为[J]. 中国编辑,2016,14(3):47-52.
  
  [14]汪庆,任慧玲. 新技术环境下STM出版发展趋势探析[J]. 科技与出版,2014,33(9):123-126.
  
  [15]语义网. http://baike.baidu.com/link?url=U0BYEl1y IrfS4Y2VRck9MzZKcEHs3ok8wL1DJ5LFsYqcKDLtAxcuIVE5 p_e35U3yrQrehN-hUxnH106fK733Ka.
  
  [16]中国科学技术协会. 中国科协科技期刊发展报告(2014)[M]. 北京:中国科学技术出版社,2014.
  
  [17]李亚子,彭希珺,钱庆,等. 语义环境下电子期刊出版标准探讨[J]. 医学信息学杂志,2011,32(6):61-66.
  
  (作者单位:哈尔滨金融学院学术理论研究部)

























国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号