业内信息

运用大数据思维盘活“小数据”价值——浅析皮书数据库的大数据应用尝试

2020-06-01 来源:《出版广角》
  【作 者】刘姝:社会科学文献出版社

  【摘 要】大数据给出版业带来了无限可能与巨大挑战,社会科学文献出版社以皮书数据库为试点,尝试运用大数据思维盘活出版"小数据"价值,迈出了大数据应用的第一步:通过打造大数据驱动产品建设工作闭环,制定需求驱动产品优化方案,二次开发数据类资源价值,打造高关联高价值的"块数据"等尝试均取得了较好的效果。未来,出版社将从打通数据孤岛、打造内容大数据和学术评价大数据信息系统等方面着手,深化大数据应用,将皮书数据库打造为更专业权威的知识服务平台。

  【关键词】数字出版;大数据;皮书数据库

  近年来,大数据以铺天盖地之势席卷而来,不仅深刻改变了社会生活的方方面面,而且成为国家基础性战略资源。可以预见,大数据应用将为出版业带来无限可能。但受体制机制、人才结构、投入成本、思维方式等诸多因素影响,出版业对大数据的运用难以一蹴而就,当前大多出版单位处于“不用忧心、用又力不从心”两难境地。如何破局?社会科学文献出版社以皮书数据库为试点,开启运用大数据思维盘活出版“小数据”价值的应用尝试。

  一、理解大数据:技术、思维、应用

  “大数据”一词产生于全球数据爆炸式增长的背景下,作为高科技时代的产物,它最初是以技术的形象走进大众视野,具有数据海量、快速流转、类型多样、价值密度低、数据真实等特征,难以用传统信息处理技术来合理撷取、管理、处理、整理[1]。“海量”是人们对大数据的第一认识,而大数据技术的战略意义并不在于掌握海量数据,而在于通过加工实现数据增值。

  大数据之所以成为时代的标记,不仅在于技术上的变革,还在于它带来的思维方式变革。大数据思维主要体现在三方面。一是复杂思维。大数据是“全样数据”,这意味着其中包含众多真假难辨的数据,接受混杂,利用大数据做整体感知,才能得到更接近客观事实的结果[2]。二是相关思维。在海量数据中很难发现因果关系,大数据则通过相关性给出解决方案。三是预测思维。大数据的核心是预测,即面向未来,通过从数据中发现规律,预测事物的发展及人的行为。但是,大数据的价值并不在于其表象特征,也不在于技术和思维变革,应用于业务需求并被挖掘出可利用价值,才是其最终目的。

  二、皮书数据库的“小数据”积累与利用局限

  皮书数据库是社会科学文献出版社以自有品牌图书资源“皮书系列”为基础,全面整合、分析、解读当下中国发展变迁的智库报告和研究成果而打造的智库产品与知识服务平台。皮书数据库始建于2009年,以优质的品牌资源、产品及服务深受业界欢迎并得到用户认可,曾获中国出版界最高奖项“第三届中国出版政府奖·网络出版物奖”提名奖等多个国家级奖项。经过多年的持续优化创新,皮书数据库已拥有机构用户超过1400家、个人用户近14万,成为年收入逾千万,社会效益和经济效益俱佳的数字产品。2015年以来,在国家大力推动大数据战略以及国家新闻出版署积极推动新闻出版业大数据体系建设和大数据应用的背景下,如何借力新技术盘活皮书数据库资源成为社科文献出版社工作重点之一。

  1.皮书数据库数据类型及规模

  皮书数据库的存量数据可分为资源数据、销售数据、用户数据和使用数据四类。资源数据,即经数字化加工的内容,包括文本、图片图表、多媒体、原始数据等形式,规模远超其他几类数据。截至2019年底,皮书数据库资源数据已达44亿字,图片图表逾55万个,音视频资源百余种。自2008年实现第一笔销售以来,皮书数据库便开始积累销售码洋、销售实洋等销售数据。2014年新版皮书数据库上线后,用户属性(如年龄、职业、性别、兴趣等)数据和使用数据也开始积累。随着皮书数据库机构用户和个人用户的增长,这三类数据也具备了一定体量,但其数据规模距互联网大数据仍相差甚远。

  2.引入大数据思维前的数据利用局限

  皮书数据库产品建设和市场开拓早期主要靠经验驱动,以资源数据为核心提供文献和信息服务,其局限主要体现为三点。一是数据管理意识缺乏。各类数据分散于各部门或各工作环节,难以关联利用。二是数据采集意识淡薄,以线下人工采集为主,导致数据规模有限,数据时效性不足,数据准确性和可持续性欠缺,外部数据未能有效覆盖等问题。三是数据分析利用不足,有数据无资产。如资源数据深度开发难以突破,对用户需求把握不准,产品优化速度跟不上用户需求变化等。

  三、以大数据思维盘活“小数据”价值

  基于大数据时代用户需求特征,皮书项目组运用大数据思维和方法探索出一套盘活“小数据”价值的具体路径。

  1.大数据时代的用户需求特征

  皮书数据库核心用户为智库研究从业者,其基本特征为:(1)知识分子阶层,以硕士博士为主,一般具有较强支付能力;(2)以研究为业,研究费用多由所在单位买单;(3)专业性强,对专业知识,尤其是基础数据、文献资料有较强需求;(4)既是内容提供者,又是内容接收者。

  随着互联网、大数据等新技术应用于智库研究,社会科学领域的研究对象、研究方法和学科范式等均发生了变化,研究者对内容服务也提出了新要求。具体表现为:一是知识需求更加专业化和多元化,对专业知识、数据资料的需求成倍增加;二是多领域、多层次主体共同参与研究的现象增多,开始利用技术工具提升科研效率,数据密集型科研成为重要趋势[3];三是对资源获取的便捷性和时效性提出了更高要求,个性化需求成倍增加;四是更关注研究成果的影响范围和影响力。

  2.以大数据思维盘活“小数据”价值的具体路径

  (1)优化业务流程,打造大数据驱动优化闭环

  面对新技术冲击和用户需求不断升级,原有经验驱动的产品建设和推广模式已不再高效,皮书项目组开始探索数据驱动的产品建设和推广模式,打造大数据驱动优化闭环(见图1)。



图1  大数据驱动优化闭环

  (2)立足于产品定位,制定需求驱动的产品优化方案

  显然,文献服务和信息服务已难以满足大数据时代的智库研究需求。皮书项目组基于大数据时代目标用户的行为特征和需求痛点,立足产品定位,综合考虑出版社优势和可行性,从资源、研创支持、成果推广、学术交流和增值服务五方面着手,设计产品优化方案(见表1)。


表1  基于大数据应用的皮书数据库产品优化方案
需求类别 需求明细 产品优化措施 处理优先度
资源层面 主题 以经济社会发展主题资源为主 利用知识重组和采集系统丰富资源体量和类型 ★★★☆☆
时效性 要求资源快速甚至实时更新 优化采集技术,提高采集速度 ★★★★☆
类型 对数据类资源需求度高 盘活现有报告中的数据类资源,加大采集力度 ★★★★★
研创支持层面 资源获取效率 快速、精准地获取所需资料 优化检索与导航,开发知识精准推送功能 ★★★★☆
内容写作 快速成稿,保持多人写作的统一性 基于内容分析研发写作模板,为写作提供标准和量化参考 ★★★☆☆
研创工具 对数据处理和展示工具需求较高 研发数据指标体系,开发数据可视化功能 ★★★★☆
成果推广层面 传播效率 快速传播,政策先声,引导舆论 基于用户行为分析进行精准营销和线上线下一体化营销 ★★★★★
影响力 构建智库机构、智库研究者的国内外影响力 构建影响力评价体系 ★★★★☆
学术交流层面 与服务对象、专家学者及时交流 搭建交流平台 ★★☆☆☆
增值服务层面 及时响应特定群体/个人需求变化和需求特殊性,提供个性化服务 持续监测分析用户数据和使用数据 ★★★☆☆
  备注:处理优先度分为1-5星,星级越高表明优先程度越高,定级标准为用户需求程度与出版社优势整体得分

  (3)盘活资源数据,二次开发数据类资源价值

  无论从规模还是从质量来看,资源数据都是出版单位最具竞争力的资产。用数据说话是皮书的本质特征,但2015年之前,这些数据一直以图片形式存在于单篇报告中,未能充分发挥价值。2015年,皮书项目组开始进行图表数据管理系统建设,2016年引入大数据思维完善建设规划,依照全面标准化加工图表,开发数据管理系统和数据检索功能,向数据可视化目标推进(见图2)。目前,通过数据标准化处理和领域指标体系构建,项目组初步盘活了数据类资源,实现了连续性分析、对比分析和精准查找。



图2  皮书数据库数据管理建设规划

  (4)打造高关联高价值的“块数据”,实现精准服务与精准营销

  皮书数据库的统计分析系统已实现对用户使用轨迹的记录。2017年以来,受大数据思维启发,皮书项目组开始尝试将部分离散孤立的“点数据”“条数据”聚拢,打造成高关联高价值的“块数据”。如根据用户页面点击行为推测兴趣点,通过IP等基本信息将个人用户与机构用户进行匹配关联和综合分析,并增加分析维度,如回头率分析、忠诚度分析、报告影响力指数分析等。通过多维度关联分析已积累的用户数据和使用数据,皮书数据库用户画像初步显现,不仅为精准服务与精准营销打下了坚实基础,而且促进了个人用户规模和收入快速增长——二者2019年增长率均达55%以上。

  四、皮书数据库深化大数据应用的发展思路

  1.打通数据孤岛,构建数据统一管理平台

  为贯彻落实出版社“智慧出版3.0”战略规划,以数据助推数字化转型升级和融合发展,社科文献出版社于2020年初成立数据中心,统筹管理全社数据资产。未来,皮书纸书、电子书、数据库等各渠道数据将实现有效聚集关联,为产品建设和营销推广提供强有力的支撑。

  2.打造内容大数据,丰富学术服务模式

  皮书数据库将着力打造“有力量、有温度、有品质的内容大数据”,借力大数据强大的采集和清洗功能,进一步丰富内容资源规模;强化大数据分析预测能力,以数据驱动内容生产和服务升级,通过内容拆解与重组挖掘内容新价值;在机器人写作、互动式出版、咨询服务等方面积极尝试,不断丰富增值服务模式,提升用户体验。

  3.打造学术评价大数据信息系统,构建中国指数

  大数据等新技术的应用使学术影响力的智能分析与科学评估成为可能。未来,皮书数据库将打造成学术评价平台,集成出版社评价数据、第三方合作评价方法和结果数据、用户评价数据及成果等各种数据,构建学术评价大数据信息系统,并通过对这些数据进行整合与分析,得到多元化、多维度的评价结果,指导皮书研创、出版和传播,构建类似标准普尔的中国指数。

  经过几年的努力,皮书数据库运用大数据思维盘活出版“小数据”价值的应用尝试取得了初步成效,但大数据动能远不止于此。未来,皮书数据库将进一步深化大数据应用,打造专业化知识服务平台,为智库成果的研创出版与分享传播提供全流程、多方位的专业支撑。

  参考文献

  [1]张涛甫.大数据时代的出版困局及其突破[J].编辑学刊,2013(2).

  [2]黎玖.何为大数据思维?[EB/OL].(2018-08-28)[2020-01-07].http://www.mobiletrain.org/about/info/47239.html.

  [3]贺威,刘伟榕.大数据时代的科研革新[J].未来与发展,2014(2).

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号