【作 者】车尧、曾文、徐红姣:中国科学技术信息研究所 《情报学报》编辑部
【摘 要】本文阐述了大数据环境下新闻出版行业面临的数据分析需求和应用现状,以图书选题决策数据分析模型研究及应用为例,调研国内相关研究现状,对相关数据研究和应用进行分析和阐述,提出构建相应的指标评价体系,运用图书出版服务过程中的实际数据进行决策数据分析模型的实验工作。
【关键词】新闻出版;大数据;选题;决策;数据分析模型
一、引言
随着互联网技术的发展,数据处理、商业数据分析等具有海量需求的应用变得越来越普遍,面对日益巨大的数据量,无论从形式还是内容上,已无法用传统的方式进行采集、存储、操作、管理和分析,更为重要的是当人们认识到数据的价值,那么分析大数据就成为工作的扩展和延伸。大数据已给社会多个行业和领域带来巨大影响,重塑了多种不同的业务和行业,新闻出版行业同样也面临大数据带来的机遇与挑战。落实去产能、去库存、去杠杆的需求,压缩库存,减少重复出版,提高出版资源利用效率和出版资源服务大众的精确性,生产适用消费需求的产品,在选题策划、内容创新、产品营销等系列出版流程中,注重出版业务与大数据的深度融合是非常必要的。
2015年3月,国家新闻出版广电总局开展数据化知识服务的试点工作。知识服务本身就是一种类型的大数据技术,其目的在于通过大数据服务,让传统出版业运用大数据技术,与用户的需求和行为进行有效对接,使出版真正服务于每个用户。目前,国家已把大数据体系建设上升到新闻出版行业发展的战略高度,要求大数据技术与出版业更加紧密地结合,并强调出版业数字化转型与融合发展需要借力大数据技术等先进工具和手段,运用大数据思维,在顶层设计和规划、专项数据体系建设、行业大数据应用项目三个方面循序渐进地推进大数据体系建设。本文以大数据环境下图书出版行业的服务需求为主要背景,通过调研国内相关研究现状,对相关数据模型和应用进行分析和阐述,提出选题决策数据分析模型,以期对未来的新闻出版产业数据分析和服务有所帮助。
二、新闻出版行业面临的数据分析需求、研究现状和应用现状
(一)新闻出版行业中数据分析需求
我国传统的出版行业数据主要包括:内容数据、发行数据、印刷复制数据、进出口数据、版权数据、出版物元数据、出版业网站数据七类。在这七类数据中,只有出版业网站数据是实时产生的,并以内容数据居多,以静态数据为主,数据结构相对比较统一,数据的知识属性较高。大数据是互联网发展到一定阶段的产物,它对传统出版业的影响是巨大的,不仅改变着新闻出版的内容生产和传播方式,也改变着传统出版业的出版模式和发展方式,给传统出版业带来机遇和挑战。以出版模式为例,以传播者为核心的传播转变为以读者为核心的传播,促使传统出版业加速在内容生产、知识服务和用户反馈等环节的变革。
在传统出版流程中,选题决策主要依靠市场调查,市场调查得到的数据是选题决策的重要依据。通过市场调查,获取消费者、市场环境、出版物和市场竞争情况的数据;通过数据分析,对市场需求、价格、销售策略等做出预判,形成市场调查报告,为选题决策奠定基础。传统的市场调研采用随机抽样法,这种方法得到的数据并不能准确客观地反映选题的市场价值,极易导致同质化内容大量产生,造成出版资源浪费。在大数据环境下,如何结合数据分析技术发现规律、预测结果,是新闻出版业必须关注和探索的问题。
(二)国内研究现状
目前,国内针对新闻出版的研究多以图书领域的学术研究为主,例如利用万方的引文数据,构建基础医学领域图书的量化评价指标体系[1];利用层次分析法建立图书评价体系,提高图书管理的效用[2];将层次分析、专家调查和模糊隶属度分析等方法进行结合,建立中文图书综合评价体系[3]。在图书选题决策方面,由于存在着许多模糊因素,通常应用模糊数学综合评价方法来进行选题方案的决策,并由此建立数学模型。最经典的选题模型是模糊综合评估方法,即基于模糊数学理论对某一选题进行模糊综合评估,定性分析和定量计算相结合,尽量降低主观因素的影响和干扰,提高选题的公正性和准确性。
基于模糊综合评估方法的数学模型,国内学者已做出多种形式的衍生研究,例如陈一心认为选题决策是一个多目标决策问题,且具有模糊性,因此提出运用模糊集理论提出选题决策的数学模型[4],周伟元提出基于同异反集对分析联系数的新的选题决策模型[5]。在新闻出版领域,选题策划是编辑工作的第一步,具有牵一发而动全身的作用。选题工作开展的好坏是一个出版机构核心竞争力最直接的体现,只有好的选题才能给出版机构带来良好的社会效益与经济效益,而选题决策数据分析模型是新闻出版行业最关键的数据分析模型之一。
(三)选题研究的应用数据和案例
应用数据:选题自身数据,同类选题自身数据,选题的社会影响数据,合适选题的作者数据,热门网站的热门话题数据,读者的喜好数据,读者的购买、浏览、拽索行为数据,图书销售数据,用户行为数据,等等。本质上主要是指三类数据:图书数据、读者数据和作者数据。
应用案例一:利用用户偏好数据进行选题决策。文汇天下网站是文汇出版社的官方网站,旨在构建读者阅读服务体验的综合性平台,出版社通过读者的网络注册信息、读者点击阅读倾向等信息,拽集重要的读者数据,为相关出版社进行选题策划服务。
应用案例二:利用热门网站数据辅助选题决策。京东商城为了解读者的需求,分析读者对图书的评价和情感倾向,对读者的评论数据进行文本挖掘分析,对读者的文本数据进行分词和过滤,建立栈式自编码深度学习、语义网络和主题模型等多种数据挖掘模型,判断读者评论数据的倾向性。出版机构可以以读者的需要和反馈为驱动出版读者真正想要的图书。数字出版企业msnNOW,通过对Twitter、Facebook等网站文本数据的大数据分析,识别细粒度级的读者关注主题,在识别出的主题内容基础上,编辑针对性地策划各种选题的主题故事,从而成功吸引网络读者。
应用案例三:利用知识服务对学术型图书提供选题决策。中国知网通过对图书内容数据(文献、题录、统计数据、知识条目、图片等)的挖掘分析,提取知识元,挖掘知识关联关系以及文献之间的引用关系,建立多维度的知识图谱和知网节,为出版上游提供选题推荐和发现新选题服务,为出版下游(即读者)提供相关知识推荐和学术热点分析。
应用案例四:利用图书销售数据和用户数据辅助选题决策。出版社通过统计畅销图书和滞销图书的销售数据,并进行针对性数据分析,选取与畅销图书类似的选题,避开与滞销图书类似的选题,并通过对出版社官网、各大电商网站和社交网站平台的注册用户的浏览情况进行数据分析,从中发现同类出版社出版的图书中最受用户关注的主题内容,作为出版社选题策划的主要选择方向。
三、选题决策数据分析模型的评价体系和方法
数据分析模型主要通过对数据的统计、学习和分析实现预测或决策。在数据不完备时,预测就不能保证绝对准确。在新闻出版行业中,影响决策的因素更为复杂,且通常数据规模有限,因此建立多视角的分析模型评价体系是必要的。本文提出的选题决策数据分析模型分为三层,包括指标层、方法层和数据层,分别为选题决策综合评价指标体系、选题决策综合评价方法和选题决策数据。此模型以图书出版为例,输入为待评估的主题,输出为主题打分,同时提供推荐作者列表、推荐图书形式列表、推荐出版商列表、推荐读者群体画像信息等。
(一)选题决策数据分析模型的综合评价指标体系
选题决策综合评价指标体系的构建,需要充分考虑选题工作的复杂性,各指标应具有代表性、可量化、定性和定量相结合、静态和动态相结合(即定量指标除了简单统计、综合统计指标外,还应考虑时序指标和预测指标)的特点。具体来说,本模型综合评价指标体系又细分为三层:第一层从作者、图书、出版商、市场、图书馆五个维度对选题进行评估;第二层从创作能力和认可度两个方面评估作者,从内容、形式、社会效益和经济效益四个方面评估图书,从竞争能力、业务能力和发展能力三个方面评估出版商,从销售和库存两个方面评估市场,从馆藏和借阅两个方面评估图书馆;第三层则细分为46个具体指标。
(二)选题决策数据分析模型的综合评价方法
选题决策综合评价方法总体来说分为定量方法、定性方法及基于文本挖掘技术的方法。
一是定量方法,包括统计分析,即对现有数据表中的数据进行简单的数量统计计算;分布分析,例如通过同类书特征分布、读者分布分析,可以得出书籍和读者的综合信息;趋势和预测分析,包括销售走势和库存走势,帮助判断选题的市场前景。
二是定性方法,主要借助专家知识,对诸如政策导向正确、出版机构的发展能力、图书的借阅需求和专家推荐等指标进行经验性判断。
三是基于文本挖掘技术的方法,包括读者评论分析、新词挖掘、热词及拽索、阅读分析、专业及网络推荐分析,主要通过对读者生成文本内容进行分析、处理,深度挖掘读者需求,对图书选题进行有效预测。
上述三个方法中,定量方法中的统计分析方法在模型中使用最多,这可以保证在数据充足的前提下,数据分析模型可以很好地落地。同时运用基于文本挖掘技术的方法,充分考虑未来技术发展的潜力,为后续利用网络资源挖掘选题提供研究基础。
四、选题决策数据分析模型的实现
新闻出版选题的专业性较强,涉及面比较广,因此,需要综合考虑出版行业的动态。以图书出版为例,需要结合图书信息、作者信息、读者信息、出版者自身信息、同业者信息、市场信息等。基于大数据进行选题决策的最大优势就在于综合最广泛的数据来源,为选题决策提供最坚实的依据。因此本模型综合利用图书基本信息数据、销售数据、库存数据、作者获奖数据、作者数据等行业数据,以及从互联网获取的数据,例如读者评论、搜索和阅读数据,专业网站的推荐信息,等等,将行业内数据和互联网开源数据相结合,共同支撑基于大数据的选题决策过程。本文依据目前图书出版行业的真实数据情况,整合以上数据为图书的选题决策提供依据。简言之,就是整合图书的中图分类号、电商网站的图书分类、读者评论、出版年份以及售价等数据,通过计算分析和识别具有良好前景的图书主题,并以满意度和关注度来分别定义。此外,考虑图书的出版年份与价格对于图书的影响,在判断选题时还将为出版单位提供不同出版年限区间以及价格区间的热门图书选题列表。
选题决策数据模型分析结果的展示对象为主题,主题用词来表示(词来自中图分类法或者图书书目信息)。分析结果可以以词云图形式对比展示某个时间段中所有主题的用户满意度评价,字体越大的词表示用户评价满意度越好。通过折线图反映某个特定主题随时间变化而发生的满意度变化情况,其中包括主题最大满意度、最小满意度和平均满意度三条折线,说明选定主题在所有主题中的对比情况。当给定主题和时间段,分析结果以列表形式反映不同地区关注的前10个主题情况的对比,及某一地区对某一主题的关注度随时间发生变化的情况。
五、结论
在大数据时代,图书的选题决策过程不仅需要创新性思维,更需要数字化技术和手段的辅助。长期以来依靠理论和经验的管理决策方式已不再适应市场的需要,直觉判断必须辅以甚至让位于精准的数据分析结果,只有这样才能提高编辑的图书选题策划效率和质量,满足不断变化的读者需求和市场需求,从而在激烈的行业竞争中立于不败之地。本文认为,新闻出版单位应明确自身需求以及想要解决的具体问题,运用新思维、新方法,立足数据并应用先进的技术进行融合发展,将业态延伸至互联网和大数据领域。决策者要用数据的眼光发现和提出问题,运用数据分析模型正确地汲取信息,对出版业务进行合理预测,使决策过程更加智能化,规避决策者单纯依赖自身经验进行决策带来的风险,提高决策效率。基于此,本文提出构建出版选题决策数据分析模型的指标评价体系和方法,并利用有效数据进行实验分析。研究的不足在于本文提出的数据分析模型及方法需要充分的数据基础,而目前可以利用的数据信息比较有限,所以数据分析模型预测的准确性仍有较大的提高空间。
注释:
[1]宋京京,潘云涛,苏成.基于PagcRank算法的图书影响力评价.中华医学图书情报杂志,2015,24(12).
[2]高孝梅,魏书堤一种基于AHP的图书综合评价方法.衡阳师范学院学报,2010(3).
[3]何峻,蔡蓉华.中文图书评价体系研究.大学图书馆学报,2016(5).
[4]陈一心.选题的多目标决策模糊优化模型.海南师范学院学报,2001,14(2).
[5]周伟元.选题决策的集对分析模型及其应用.科技与出版,2003(6).