摘 要 新闻出版业的大数据应用,首先要厘清概念误区,明确区分大数据和“数据大”、“统计分析”的逻辑关系;然后需要梳理新闻出版业的数据价值体系;同时需结合新闻出版业条数据、块数据同时并存、各有千秋的数据特点和规律,围绕着数据作为生产要素,重塑新闻出版数据的采集、存储、标引、计算、建模和服务体系,进而在专业出版、数字教育或者政府管理等领域做出若干大数据应用示范案例,或者在政府大数据、行业大数据和企业数据层面开展若干试点工作,这样,方可尽快推动新闻出版业应用大数据技术的进程和步伐。
与此同时,要充分考虑到隐私权威胁和数据过分依赖两个负面性问题,通过感性决策因素的积极发挥和数据安全防护策略,来最大限度地防止大数据黑暗面的出现。
关键词 大数据;数据价值体系;云计算;知识标引;模型建构
2013年,被誉为大数据的元年。浙江人民出版社《大数据时代》一书的出版,首先掀起了一股大数据领域的出版热潮;之后,大数据作为一个热门话题,一直在各行各业引起高度关注。2014年5月,美国白宫发布了“2014年全球‘大数据’白皮书”,内容涉及大数据与个人、美国政府的数据开放与隐私保护、公私部门的数据管理、大数据的政策框架等内容。2014年底,国家新闻出版广电总局开展了关于“十三五”时期“大数据在新闻出版业应用”的课题预研究工作;2015年9月,国务院对外公开了《促进大数据发展行动纲要》,提出未来五到十年我国大数据发展和应用的十大工程,包括四大“政府大数据”工程、五大“大数据产业”工程以及网络和大数据安全保障工程,其中特别提到了新闻出版业紧密相关的知识服务大数据,指出要“建立国家知识服务平台与知识资源服务中心”。
在其他行业已经纷纷开展大数据平台建设,甚至有的行业已经成功研发出区域性大数据成果之际,我们有必要对新闻出版大数据建构的若干问题加以梳理,以进一步明晰发展思路和找寻落脚点。
1 大数据概念误区
自大数据概念引人以来,有许多的概念误区,其中有两个方面最容易引起混淆:第一,将大数据等同于“数据大”;第二,将大数据等同于“统计分析”。
毋庸置疑,大数据的基础是“数据大”,是以海量的数据资源作为内容支撑,但是大数据又不仅仅止步于“数据大”,因为大数据的核心在于挖掘出庞大的数据库独有的价值,在于海量数据背后的隐藏价值、潜在价值。只有挖掘出海量数据的隐藏价值、潜在价值,才能发挥大数据在自然科学领域的预测作用,才能实现大数据在社会科学领域的预警作用。
同样的道理,大数据预测功能的发挥需要通过统计分析来实现,但统计分析并不等同于大数据本身。就新闻出版业而言,大数据的建构是一个集数据采集、加工、标引、统计、分析、建模、服务于一体的数据生产体系,而统计分析仅仅是其中的一个技术性环节。通过离线计算、分布式计算等计算组件所统计分析出来的二次数据,才是大数据的精华和核心,这样的二次数据独立于统计分析本身,是在原有海量数据基础上的价值提升和再发现。
2 大数据应用的内容提前——数据价值体系
就我国新闻出版业而言,以价值体系为视角,综合分析这些年新闻出版单位所经历和开展的转型升级业务,得出这样一个结论:新闻出版企业的产品具备直接价值、数字化价值和数据化价值,这三个层次的价值体系构成了大数据应用于新闻出版业的内容前提。
其一,直接价值,是指经过新闻出版单位策划、编辑、审校、印制过程而形成的纸质产品所产生的价值。其中,纸质产品包括传统的图书、报纸和期刊。数十年以来,我国的新闻出版单位的主要经济效益指标的完成、日常经营管理的主要收人来源,均来自于对纸质产品价值的实现过程。
其二,数字化价值,是指在新闻出版业转型升级过程中,通过对纸质产品数字化、碎片化的过程,而产生的数字图书(馆)、专业数据库所贡献的价值。数字化价值的实现依托于数字出版发展历程的数字化阶段和碎片化阶段。国内已有多家出版社通过对数字化价值的挖掘来产生和创造出新的经济增长点,例如社科文献出版社的皮书数据库、人民法院出版社的审判支持应用系统等均取得了较好的社会效益和经济效益。数字化价值是对原有纸质产品的价值提升,也是纸质书报刊二次价值的挖掘和
体现。但是,数字化不等同于数据化,纸质产品的数字化价值也永远无法取代其数据化价值。
其三,数据化价值,是指在数字化、碎片化的书报刊的基础上,对数字化、碎片化的资源进行多维度、立体化知识标引,充分运用云计算技术,通过大数据模型构建和数据服务层研发,所产生和输出的二次数据所创造的价值。二次数据所创造的价值,也是纸质书报刊三次价值的挖掘和再提升。可以说,这些年整个新闻出版行业的转型升级工作,主要是促进和推动传统新闻出版单位尽快挖掘出纸质产品的数字化价值,而对于数据化价值的挖掘和提炼工作,还没有实质性的开展和部署。纸质书报刊的数据化价值的产生,是大数据技术应用于新闻出版业的初衷和归宿,也是新闻出版业由数字出版向数据出版转型和过渡的关键和标志。
3 大数据应用的资源起点—数据采集
大数据技术要求我们把所有的文字、图片、视听资料、游戏动漫都当作数据来加以对待,把数据作为生产要素加以看待,数据从生产流程一端输人,从另一端产生出我们想要的二次数据、创新数据,实现数据的潜在数据挖掘。这个过程,与知识发现的过程有些类似(如图1所示)。

图1 新闻出版业大数据建设流程
就新闻出版业而言,大数据技术应用的资源起点在于数据采集,数据采集的类型,包括用户数据、交互数据和内容数据,其中内容数据是重中之重。
数据采集的路径大致有三种:
第一,存量数据转化。存量数据的获取,主要采取纸质产品形态转化的手段,对出版社既存的知识资源进行数字化、碎片化,进而获得所需的各种类型的知识资源。出版社的历史各有长短,所积累的存量图书少则千余种,多则数万种,这些存量资源的数字化、碎片化是很重要的知识数据积累。近些年,财政部、国家新闻出版广电总局所力推的特色资源库建设项目,是解决存量资源数据化的重要方法和途径。
第二,在制数据建设。在制数据的获取,是指针对出版社日常编辑出版过程中的知识,通过流程同步化的手段,进行数据的标引、加工,以获得所需的知识资源。在制数据的获取,对新闻出版单位的传统纸质产品和数字化产品生产管理流程一体化提出了很高的要求,同时,也对责任编辑的专业能力、技术算计能力、出版社的一体化考核机制提出了较大的挑战。
第三,增量数据采集。增量数据的采集,是指在出版社主营业务之外,通过资源置换、资源购置、网络抓取等方式和手段,获得所需的数据资源。增量资源获取能力的高低,是出版社开展大数据建设,与民营企业、海外出版机构竞争的关键所在,也是目前各出版社正在着力解决的难题。
我国新闻出版业的特殊体制,使得各新闻出版单位在数据拥有方面呈现出条块分明的特点,也为我国新闻出版业构建各种类型的出版大数据体系提供了前提和可能:专业出版社往往服务于特定的行业,在长期的经营发展过程中,积累了数量庞大、权威专业的行业数据资源,进而为开展“条数据”的大数据应用奠定了数据基础;而地方性的出版社、出版集团,则占有特定地域的数据优势,能够调动地方资源,在“块数据”的大数据应用方面大展拳脚。
4 大数据应用的技术基础——知识标引与应用标引
在采集完海量的数据资源以后,出版单位紧接着面临的是对这些数据进行清洗、挖掘和标引工作。数据标引是整个大数据应用的基础,也是大数据发挥预测、预警价值,实现知识发现和数据创新的成败所在。
新闻出版业的标引,侧重于知识标引和行业应用标引,一方面服务于学科研究,另一方面服务于国民经济各行业的应用,为开展知识服务奠定基础。
4.1 学科知识标引
出版社完成知识标引任务,需要做好两项准备性工作:知识元的建构和知识体系的研发。长久以来,为了完成各个阶段的效益指标,出版社往往采取短期性、粗放式的经营方式,很少有出版社能够在知识元、知识体系方面开展相应工作,而到了大数据时代,对于知识元、知识体系的建设工作则显得刻不容缓。
知识元,是指不可再分割的具有完备知识表达的知识单位。从类型上分,包括概念知识元、事实知识元和数值型知识元、解决方案型知识元等。知识元的建构,是开展大数据知识标引的逻辑起点,同时也为移动互联网时代出版单位开展知识服务提供了资源基础。
知识体系研发,则是关乎所采集的大量数据能否贴上标签,为将来计算、统计、数据提取提供基础的重要任务;同时,知识体系也是数据加工企业据以标引内容数据的依据和标准,没有知识体系,知识标引则沦为一句空话。知识体系的研发需要在知识元建构的基础上,厘清各个知识点之间的逻辑层次,尊重现有学科分类,依特定学科、特定领域分别开展。
值得一提的是,之前大量的出版社所开展的资源数据加工业务,都是采取“甩手掌柜”式的做法,将出版社的既有数据交由数据加工企业做结构化标引,出版社在整个数据加工过程的角色和地位并没有凸显。这种做法,在结构化标引工作中勉强可行,而在知识性标引过程中,出版单位必须要充分发挥自身的主动性和能动性,运用自己的专业资源优势和学科优势,亲自主导研发知识元和知识体系,之后再将知识元、知识体系交由加工企业,让加工企业依据知识体系进行标引,同时,出版单位要对标引后的数据做最重要的质量检查。
4.2 应用知识标引
应用标引,是指对采集的海量数据按照特定行业的工作环节、职能定位进行标引。应用标引是出版大数据服务于国民经济各个行业的关键性步骤,也是大数据前期市场调研的必然结果,同时关乎所生产的大数据知识产品能否切实满足目标用户的实际需求。
应用标引在数字出版发展的不同阶段都在被广泛应用和采纳,并且已经显示出了其在数字化、网络化时代的价值和前景。例如,之前法律出版社所研发的中国法官数字图书馆就是按照法院系统的部门设置、工作环节、流程任务等维度,对所收录的近万种数字图书进行子馆建设和研发,实践证明这种标引方法相对于中图分类法,更受到目标用户的欢迎和认可。
应用标引首先需要建立一套完整、权威、被用户接受的行业应用知识体系,知识体系侧重于服务行业具体公共环节和流程。体系研发工作需要由出版单位主要承担,需要充分发挥出版社的专业知识优势,同时建立在充分的市场调研的基础上加以完成。
5 大数据应用的技术关键——云计算
在对海量数据进行采集和标引之后,便需要运用云计算技术,对各种数据进行计算,计算的结果是产生二次数据,也就是我们想要的大数据的精华——纸质产品的数据化价值体现。
关于云计算,当前的传统出版技术提供商还仅仅停留在以云存储、虚拟化和设备租赁为核心的基础设施即服务物(Infrastruchure-as-a-Service,IaaS)阶段,而对于设备租赁,往往是超大规模的数据拥有商才有可能运用,所以在新闻出版业的大数据方面并没有太大的应用空间。
出版业大数据所运用的云计算技术往往集中于软件即服务(Software-as-a-Service,SaaS)层次,即直接运用相关的软件和技术,一般离不开各种计算组件的综合运用和离线计算、流式计算、内存计算等多种计算框架的设定。从福建省司法大数据分析平台案例可以看出(如图2所示),该平台以HDFS Federation和YARN为核心,在YARN集成了各种计算组件,包括H Base, Hive, Tez, Storm、Kafka等。以YARN的资源动态调度为基础,高效地将离线计算、流式计算、内存计算等计算框架融合在一起,实现统一的调度和管控。

图2 福建法院司法大数据分析平台界面
6 大数据应用的思维突破—模型建构
大数据产业链主要由大数据拥有者、大数据技术公司、大数据思维公司和个人、数据中间商4个角色所实现。在这4个角色中,核心和关键是具备大数据思维的公司和个人,因为他们能够指导采集什么样的数据,他们明晰需要设定群体、行为、性别、特征等哪些分析统计维度,他们知道采用什么样的挖掘分析系统,他们清楚产生的二次数据的用户和市场。
出版企业本身是一定量数据的拥有者,具备了研发大数据平台的数据基础;最重要的是经过多年的专业墙训和实践,出版社,尤其是专业类出版社,拥有具备大数据思维的职业人才,同时出版企业还可以通过合作、融合等方式扮演数据中间商的角色。
大数据思维的最重要体现便是如何构建大数据模型,这对任何行业的大数据建设而言,都是头等重要的大事。新闻出版业基本涵盖了我国学科体系的13门学科的所有知识范围——理学、工学、农学、医学、哲学、经济学、法学、教育学、文学、历史学、军事学、管理学、艺术学。为此,大数据建模将会呈现出各种各样的差异性和特殊性,其复杂程度也将有所不同。对于法律学科,其严谨、规范的法言法语非常有利于大数据的标引和计算开展,这样的严谨性、规范性语言不仅存在于法律条文中,同样存在法律判决书之中;同样,法律学科“大前提、小前提、结论”的基本逻辑模型也为大数据建模提供了相对一致的模型基础。而对于其他学科,能否把握住其基本的逻辑模型和语言特点,将是考量大数据建设的重要能力。
但是,差异再大,大数据建模的两个方向也将是恒定的—学科体系建模和行业应用建模。学科体系建模有着相对成熟的理论基础和知识体系,其操作难度相对不大;而行业应用建模,则需要深人到国民经济各行各业,深人把握各个行业和职业的工作环节、业务流程的特点规律,在此基础上,熟悉用户需求,围绕用户需求建构相应的大数据模型。
7 大数据应用的服务层次——数字教育、知识服务与移动阅读
在经历了数据采集、数据标引、数据计算、数据建模等环节后,便可为目标用户提供丰富多彩的大数据服务了,大数据服务既包括服务于新闻出版业本身的数据服务,也包括服务于国民经济各行业的数据服务。企业级的大数据平台,完全内部可以为选题策划、编辑审校、印制财务和发行运营提供数据支撑和决策参考;同时,企业级大数据平台所汇聚的海量数据资源,又可为目标用户提供外部的知识服务,进而实现纸质产品产生的二次数据的价值。
在对外提供大数据服务时,出版业的大数据所提供的服务既包括提供一般性数据服务,如数据查询、数据下载、数据可视化、数据交换和购置,也包括为出版转型升级的特定领域提供服务,例如数字教育、知识服务和移动阅读领域等。下面仅就大数据在教育出版、专业出版和大众出版领域的应用做简单分析。
7.1 大数据与数字教育
大型开放式网络课程(Massive Open Online Courses,MOOC ),即慕课,曾一度被誉为继火的发现之后最重要的创新,然而,2013年美国斯坦福大学的教授塞巴斯蒂安·特龙却公开宣称MOOC是一个失败的新生事物,其主要原因是只有5%左右的课程完成率。MOOC备受欢迎的原因在于汇聚了海量的权威课程资源,解决了教育的形式公平公正问题,弥补了课堂教学的资源有限性。
继MOOC之后,美国又兴起了小型私人网络课程(Small Private Online Courses, SPOC)热,它是为解决小规模学生群体的特定学习问题而开设的网络课程,应该说SPOC属于知识服务的定制化服务范畴,它解决了小部分学生的学习难点和问题,同时将线上和线下的课程、答疑相结合。
无论是MOOC,还是SPOC,要想取得较高的通过率,都需要借助大数据技术,实现数据回传、捕获学生的个性化学习问题,进而采取有效的针对性措施,以实现预期的理想课程效果。
7.2 大数据与知识服务
如前所述,我国《促进大数据发展行动纲要》中明确提出知识服务大数据的建设,包括建立国家级知识服务平台和国家级知识资源服务中心。大数据与知识服务的关系是:首先,大数据为扩展性知识服务的开展采集了海量的知识数据、用户数据和交互数据,为精准营销和定制化推送提供了前提和可能,能够有效发挥扩展性知识服务的B2C盈利模式的作用;其次,大数据为定制化知识服务提供了个性化知识解决方案,能够满足特定群体、特定个人的绝大部分知识需求;最后,大数据平台和知识服务平台都需要采用知识标引技术,包括学科性的知识标引和应用性的知识标引,这也是二者可以实现融合打通的底层资源可行性所在。
7.3 大数据与移动阅读
在大众出版领域,移动手机阅读收人近几年经历了百分之好几百的高速增长之后,目前处于平稳增长的新常态发展格局,而无论是中国移动还是中国联通都已经在部署或者筹划部署大数据平台的建设问题。移动阅读平台构建大数据,有其天然的优越性:其一,三大基地掌握了大量的用户数据,仅以中国移动手机阅读基地为例,就拥有着4.2亿的手机用户,海量的用户数据对于大数据模型的建构和服务的提供具有至关重要的作用;其二,手机阅读基地掌握了海量的内容数据资源,仅中国移动手机阅读基地就拥有着超过43万种精品正版内容,涵盖图书、杂志、漫画、听书、图片等产品,这些内容数据恰恰是大数据平台建设的核心数据所在;其三,手机阅读基地还以其日均点击量数亿次的优势而收录了大量的点赞、评论等交互数据,这些数据对于实现内容精准投送、个性化定制推送具有相当高的参考价值。总之,移动大数据将来也必将成为数字出版界的一面旗帜,在大数据时代继续扮演领跑数字出版的重要角色。
8 结语:大数据应用的负面效应——隐私权威胁与数据过分依赖
与其他领域的大数据黑暗面一样,新闻出版业大数据的建构也面临着其负面性问题,主要在于隐私权的威胁和数据的过分依赖。
新闻出版大数据所搜集的海量用户数据,必然包括上游的作者数据和下游的读者数据,通过对交互数据的计算和分析,可以形成关于读者、作者的基本数据资料。而一旦相关用户数据丢失,势必会对作者和读者的身份信息、职业信息、通信信息等相关数据造成泄露,容易带来意想不到的麻烦,尤其是对VIP级的作者和读者。所以,数据安全防护是大数据建设的重要防火墙之一,出版大数据的承建者必须要有一套完整的数据安全方案和措施。
对于数据的过分依赖容易限制出版人的灵感、直觉等感性因素对于正确决策的影响力。在我们拥有海量数据来支撑选题策划、营销推广的决策时,一旦过分相信既往数据的价值,就容易陷人被数据误导的陷阱;此时,需要将数据的参考性价值和我们对于出版市场形势的敏感度、预判力相结合。只有这样,才能理性而客观地认识市场状况,做出相对科学合理的经营管理决策。