【摘 要】数据出版是数据技术在传统出版产业的应用而产生的一种增强数字出版产业发展的新动能,是新型知识基础设施。业界和学界对于数据出版的认识正处在实践和形成理论的过程。文章从四个维度对数据出版进行了详细论述。第一,社会功能,包括数据出版的内涵、与电子出版和网络出版的区别、位于数字出版中级阶段的划分依据;第二,应用模式,有数据库式、数据专刊、数据中心、数据阅读推荐、数据市场热点;第三,生产流程,有数据挖掘辅助选题、深度挖掘创作、数据清理、可视化呈现、短视频传播;第四,未来发展,包括面临大数据湖、小数据池的问题,以及人才新增复合技能、传播途径、开放共享的前景。
【关键词】数据出版;智慧出版;知识基础设施;盈利模式
2020年的《政府工作报告》提出“加强新型基础设施建设,全面推进互联网+,培育数据市场”作为“增强发展新动能”的重要工作内容。数据技术已经应用于社会经济生活的诸多领域,数据技术推动数字经济产业的新动能发展是当下国家重要的工作之一。如何利用数据技术推动传统出版业转型新发展是科学研究面临的难题。当代出版业正从传统纸质出版转向纸质出版与数字出版融合发展,出版产业从出版物的形态到出版产业链正在发生巨大变化,笔者根据近20年的追踪研究,发现如下成果:在科技的快速推动下,数字出版可以分为电子出版、网络出版、数据出版、智能出版和智慧出版5个阶段。[1]
一般而言,出版的业界和学界对于电子出版和网络出版基本已能够形成共识;而对于数据出版的认识正处在实践和形成理论的过程。传统的观念认为数据出版是数据库出版,新兴的观念则把数据出版划为IT网络发布。笔者之前的研究认为:数据出版是以数据挖掘技术为驱动,形成的数据共享、数据开放、数据知识重组等编辑加工方式,由数据工作者将调查、研究的数据成果,以数据论文或数据的形式,通过互联网公开发布信息。数据出版的最大特点是改变了出版创作的方式。[2]那数据出版的社会功能有哪些?数据技术在出版的应用模式有哪些?数据出版的生产过程,以及数据出版的未来又如何?本文将对此展开深入论述。
一、数据出版的社会功能
数据像资本一样具有经济价值。一方面,数据可以像资产一样被管控、积累、交易、组合投资、挖掘、发布,产生新的经济价值;另一方面,数据也可以像债务一样被管理、保护或者毁约。这反映出数据具有两大特性:强大性与脆弱性。由于数据具有强大的创造性经济价值,由此产生了比特的力量;又因数据容易被毁改的脆弱性,由此产生了区块链的发展。数据正以数字和物理形态快速增长,除了大数据的快速发展与应用,一些小数据也可能具有像大数据一样的价值需要引起重视。
在理解当今数据科学的分化基础上,数据技术在出版的应用就可以发现,数据出版不仅仅为大数据出版,还要注意小数据出版这种更新的发展动能。大数据指那些以前所未有的规模或范围使用数据进行的研究,大数据技术应用的前提需要一个大规模的数据湖。小数据指在人联网的技术背景下,以用户数据战略为导向,限定一定规模范围的数据进行研究,小数据技术应用的前提是建立一个高度目标针对性的数据池。现实中,大数据出版、小数据出版都有着广泛的应用前景。
(一)数据出版的内涵
关于数据出版的内涵,笔者通过追踪研究依据传统出版的研究范式,提出:数据出版是由包含传统作者与编辑、新型数据工作者在内的内容创作者,利用数据挖掘技术,通过数据共享、数据开放、数据知识重组等编辑加工方式,将调查、研究的数据成果,以数据论文或数据的形式,通过互联网公开发布信息。数据出版的分类,包括:数据库式数据出版、数据出版专刊、非传统传媒机构建立数据中心发布数据信息、数据推荐阅读排行榜、数据新闻应用孵化出版市场的数据热点。
数据出版的最大特点是改变了出版创作的方式,颠覆了以往的传统出版生产流程。数据出版的生产流程图示如图1。

图1 数据出版的生产流程示意图
数据出版的特征包括如下几点。一是以服务公共利益、服务社会为目的。这是数据出版的出发点。数据出版是为了公众更好地理解人们身处的大数据时代的变迁,了解数据背后隐藏的信息是如何影响每一个读者。二是以开放数据为基础。这是数据出版的前提。如果政府不公开信息、出版社不授权信息、其他组织不共享信息,将很难形成有效的大数据湖。数据出版在缺少数据源的情况下,将很难发挥出惊人的数据驱动力。三是以可视化的人性服务为主要呈现方式。这是数据出版的表达形式。科学可视化技术的发展,将复杂、抽象、晦涩的信息,可以转换成形象、具体、生动的可视化数据表达。可视化表达方式,将出版的读者群进一步细分,拓展出版的受众市场,开辟出版发行渠道,丰富市场宣传手段,增加出版的形态,缩小出版的周期。
(二)数据出版和电子出版、网络出版的区别
电子出版和网络出版是数字出版的初级阶段。电子出版是指传统纸质出版从编辑加工、书报刊的纸质呈现,转型为电子技术的介入,电子出版物的表现形式有光盘、CD-ROM、电子阅读器、电子书、电子杂志、电子报纸。所谓网络出版,是指以纸质出版、电子出版技术为基础,通过数字网络技术,借助互联网进行编辑、复制、发行、信息传播,出版物的形态存在于互联网服务器的介质中,需要数字终端设备在线联网或下载后离线的一种出版形式。
电子出版、网络出版与传统出版最大的区别是电子化和网络化技术介入出版产业流程。电子出版的形态以电子书、电子报为主要呈现形态,而网络出版与电子出版的最大区别在于是否接入万维网,信息的传递和传播是否为网络化。[3]这两个阶段对传统出版产业模式尚未造成颠覆性影响,是传统出版的电子化和网络化的呈现,因此是数字出版的初级阶段。
(三)数据出版是数字出版中级阶段划分的依据
数据出版的核心是数据,是指能够被计算机程序识别、存取、处理的材料,包括文字、图片、声音、影像等资料。
数据出版的最大特点是改变了出版创作的方式。这也是数据出版之所以能进入数字出版中级阶段的划分依据。也就是说,在数字出版的初级阶段,主要体现在基于传统出版产业链模式的电子化和网络化的改变;而数据技术应用到出版,是对传统出版产业链模式的内容创作与编辑加工等方式发生了再造。简言之,数据出版改变了出版产业链源头与核心的内容创造方式,再造了传统出版的产业链模式。因此,数据出版为数字出版的中级阶段。
受惠于大数据、数据挖掘、存储降噪等技术,数字出版产业链发生了区别于传统出版线性传播的巨大变化。出版产业,从销售、市场和宣传等相关工作都发生改变,可实现大数据实时分析、动态分析、数据推荐排行榜、大数据选题、数据编辑、可视化呈现出版物等新型数字化出版业态。数据出版之所以只能列入为数字出版的中级阶段,最主要的原因是:数字出版的高级阶段应该是回归出版本源的以“支配技术”理论为范式;而数据出版阶段的出版业仍然是属于“技术支配”理论范式,无法跳脱进入“支配技术”理论范式。简言之,数据出版阶段是以“技术+出版”为主,即大数据、可视化等技术在出版业的应用。
二、数据技术在出版领域的应用模式
数据存在于知识基础设施中,即人、生产实践、技术、组织机构、物质对象及其相互关系构成的数据基础生态圈。数据中心是一种新型知识基础设施建设。数据技术在出版的应用,是数字出版这一基础战略发展的新动能。数据技术已在出版物的编辑、选题、市场宣传等出版工作领域有所应用。
(一)数据库式数据出版
数字出版产业链是数字技术融合电子技术、计算机技术、网络技术、通信技术等在出版中的应用,是在“大出版”时代的背景下,伴随着媒介融合、终端融合、网络融合、内容融合的发展而产生的,是传统出版产业链的整合与结构升级。数据出版模式已经在国内传统出版业界进展有小十年了。
对于数据库出版模式的尝试和摸索有高等教育出版社的教材教辅数据库、中国社会科学院的皮书数据库、商务印书馆的工具书数据库等。这是一种扁平型方式,它的主要特点是出版社可以通过网络建立数据库,将数据依据不同的终端载体,选取不同的章节数据,直接面对读者。这种模式完全打破了传统出版的编印发模式和线性传递过程,是数字出版中级阶段的典型特点。
(二)数据出版专刊
在世界数据出版领域,处于前沿的是地球学、地质学。我国地质学紧跟世界的步伐,全国地质资料馆已建立地质领域的数据中心,并在2017年9月推出了我国首个地学领域数据出版专刊《全球地质数据》。该数据出版专刊的出版形式,是由数据工作者按照一定的规范,将调查、研究的数据成果,以数据论文或者直接以数据的方式,通过网络或其他渠道公开发布。
对于如何解决数据脆弱性问题,该数据出版专刊采用数据出版的核心解决办法,对开放获取的数据集进行赋予全球数字对象唯一标识符的形式。数字对象唯一标识符(Digital Object Unique Identifier,简称DOI),是一套识别数字资源的解析为具体地址的协议。DOI的体现形式主要包括二维码、条形码、字符码、网络域名等,其特点为数字对象唯一性。利用DOI技术的数据出版,可以增强数据知识流动中对知识产权、版权的保护。
数据出版专刊《全球地质数据》,采用DOI技术的数据期刊发行,数据在被其他用户在各类工作报告、科研论文或科研项目中引用时,通过引用DOI的方式进行知识产权使用的声明,而用户从互联网上可以直接获取该数据的定位信息。数据出版通过保护数据作者的署名权的形式鼓励数据共享,并具有提升数据国际化程度、量化评价数据项目的工作绩效、促进数据汇聚及数据灵活性服务等效益。[4]
数据期刊与传统期刊在编辑出版流程上存在差异。据《全球地质数据》介绍,首期所选的数据集是对全国地质资料馆的馆藏公益性地质调查成果数据,进行系统挖掘整理,筛选选题后,邀请原数据作者参与完成首批数据论文撰写。再按照期刊发表要求,对数据论文进行同行评议与修订。之后,再通过保密、公开化、地图编图等专业审核,对可能存在的问题进行了全面处理和复核,确保不存在安全问题。最后,再进行公开发行。这种数据期刊的发行模式,打破了传统作者提供稿件的模式,是一种探索数据共享出版的新模式。
(三)非传统传媒机构建立数据中心
各领域掌握数据资源的机构,建立数据中心,直接以数据中心的形式通过互联网发布数据集及数据论文。最早的是世界数据中心在1957年国际地球物理年提出通过观测程序采集的数据进行归档和分配。2002年《布达佩斯宣言》提出了出版物开放获取的世界宣言。数据资源中心机构与前文所讲的数据库式数据出版的差别,不再以出版社的数据资源为中心,而是非出版社、期刊社、报社等传统新闻出版机构,通过自身拥有的数据资源,建立数据资源中心,并可以绕开出版社、报刊等传统新闻出版机构,而进行对外发布。
因为,DOI可以保证数据集的唯一性,这促进了数据的知识有效性,提高了数据的真实性、可信赖性。在这种技术保障下,非传统媒体机构可以建立数据资源中心直接发布数据信息,这就对传统新闻出版机构提出了巨大的挑战。在传统出版产业链的资源导向型模式中,知名出版社、大型专业化出版机构和期刊报社,掌握着市场的议价权。数据资源中心的出现,将使得谁拥有数据资源越多越权威,或说谁拥有DOI数据集的资源越多,谁就将拥有新闻出版市场的议价权。
现在我国建立的科学数据存储库(Science Data Base,简称Science DB),是由中国科学院计算机网络信息中心建设维护的数据中心,旨在建立一个公共的通用型科学数据存储库。该数据中心主要面向科研人员、科研期刊、科研机构及高校等利益相关者,提供科学数据汇交、长期保存、出版、共享和获取等服务,支持多种的数据获取与使用许可。对于每一份数据资源集会分配DOI号码。这个数据中心有两个特点:一是已经绕过传统科技期刊,通过网络进行数据信息的发布,可以弥补传统科技期刊版面容量不足的问题;二是不同于商业数据库,免费、便捷提供数据的下载和引用,促进知识的快速流动。这些特点正是数据出版的核心特征。
数据中心因其自身建立与运营,需要经济成本和社会成本,也需要获取经济利润。数据中心的获利模式,现状下有三种方式。第一种,如本文前一节数据出版专刊所言,数据中心自行创办并发行相关的出版物,如数据专刊;这需要该数据中心拥有刊号或社号,即数据中心需要获得出版发行的牌照。第二种,如本节所言,数据中心绕过出版社、期刊报社,自行通过网络和社交媒体等渠道,自行销售;国内可通过统计调查公司等方式,国外因为出版执照获取简单可以直接自办出版发行。第三种,合作出版,数据中心与传统的出版社、期刊社进行数据资源和书号刊号的合作,公开出版发行数据论文及数据集;其国内流程有点类似以往的国际合作出版形式,是数字版权的合作形式。
(四)数据推荐阅读排行榜
数据出版也是数据分析技术的应用。数据库、大数据、数据挖掘等信息技术的快速发展,有些网络平台商提出电脑自运行的大数据分析,形成图书排行榜推荐。一些网络发行商提出大数据推荐,即把书搬到网上,按顾客兴趣进行筛选,做个性化推荐。通过分析消费者的网页停留时间、登录缓存数据、消费数据来推荐顾客感兴趣的物品,这是电商、搜索引擎、门户广告的常用手段。
数据推荐排行榜存在四个问题:
第一,互联网发行商并未公开数据算法,推荐榜纯依据顾客兴趣的推荐或是掺有竞价排名和商业资本侵蚀未可知。这种技术本身会涉及侵犯网络消费者登录缓存数据隐私安全,而数据及其用途的发展速度远远超过隐私法或信息政策的发展速度。这涉及技术伦理,问题复杂。
第二,网购书消费者的样本只是小样本,且样本数据有很强的地域性。对于北京购书消费群体而言,有实体书店、网络书店、出版社直邮、免费赠阅等多种图书销售渠道,互联网发行商很难成为垄断力量。消费者除了网络购书和实体书店购书与阅读外,人们还可以在国家、城市、社区、高校、学校等各种图书馆进行阅读。若互联网发行商仅以自身顾客小样本数据作为出版行业或读者的阅读推荐,不仅脱离实际,也有很强的误导作用。
第三,大数据推荐只能是依据读者的反馈信息进行分析,技术本身没有问题,但问题出现在读者反馈数据的样本库是否真实有效呢?常见的如:一些小众类的科学学术专业性非常强的图书,阅读群体很小,难以形成有效的反馈数据;一些涉及私密性话题的图书,少有读者会填写反馈数据;一些标题耸动吸引眼球的“标题党”图书,虽销售率很高但阅读率很低。
第四,大数据推荐排行榜在实际应用中存在一定的不科学性。图书销售率的高低并不能科学地指向书本的实际阅读率;读者信息的反馈并不能精准科学地指向图书的使用率;数据信息反馈的不科学性导致排行对图书质量的揭示方面还有局限性。
因此,数据排行推荐恰恰是一种辅助编辑推荐的功能。编辑除了推荐自身阅读和使用的图书外,还会依据自身学识水平和面向的读者群体,进行经验性的脑科学分析,并加以反馈,引导读者。但鉴于编辑本身时间、精力、能力、阅读兴趣等相关阅读偏好影响因素和编辑群体的有限性,会对编辑推荐的排行榜有一定的影响。大数据推荐说到底是一种应用技术,而且是一种可以被编辑掌握和使用的应用技术。在大数据技术协同下,可以设立不同类型的编辑偏好参数,形成更加科学的样本数据库;同理,也要对读者群体进行偏好参数分析。编辑再利用数据挖掘技术,对读者样本数据库进行大数据分析,并将分析结果纳入到编辑推荐中。
(五)数据新闻应用孵化出版市场数据热点
在大数据的出版形态中,有一个热点形态,就是数据新闻。数据新闻是随着网络时代的到来而出现的,是新闻传播演变发展的自然结果。
数据新闻的萌芽是从计算机辅助报道开始的。20世纪50年代,美国就有媒体记者利用大型计算机对政府提供的数据库中的信息进行分析,以调查和发现新闻事实。2008年成立的一家美国网络新闻机构ProPublica,以数据挖掘与应用为主,至2020年已六次(含合作)获得普利策奖,其成长速度超越了普通的传统新闻媒体机构。我国已有人民网、新华网、《新京报》等媒体建立类似的数据中心,加快数据新闻的产出与影响。
如果我们把数据新闻的目光仅仅聚焦在传统新闻媒体和记者调查领域,就忽略了数据新闻应用到出版领域的价值。笔者认为,狭义而言,数据新闻是指针对传统新闻机构的一种新的报道样式,是一种保证新闻客观性的新近事实的表达。与前文学者提出的观点一致,数据挖掘、数据分析、数据辅助记者调查能够让新闻更加的客观,增强了新闻的报道深度与客观性。
本节此处是要提醒出版界,在媒体融合发展时代,出版人需要用融合发展的大视野来看待曾经传统的事务进行融合化发展。数字和网络技术已经大幅缩短传统出版的生产周期,特别是数字出版的流程已经颠覆了传统出版流程。大数据挖掘技术打破了传统出版和新闻媒介的界限,促进新闻出版的融合发展。
数据新闻应用到出版领域,是指利用数据新闻技术,采用议题设置理论,基于数据的抓取、挖掘、统计、分析和可视化呈现的方式,推动孵化出版市场发行形成数据热点,促进销售和引导舆论。
三、数据出版的生产流程
数据出版并不是从字面上理解,以数据库、数据资源为第一步,依然与传统的新闻出版方式一样,以选题策划为第一步。但是,选题策划的主角已经发生了改变,包括作者、编辑、记者、自媒体人、数据库拥有者、数据分析员等。这些群体都可以成为选题策划主力,成为内容提供者。数据出版改变了长期以来图书选题的操作模式。数据出版制作流程模式包括如下几步。
(一)选题策划:数据挖掘
数据挖掘技术是数据出版得以实现的一项重要技术。数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐藏的、未知的、但有潜在价值的信息和知识的过程。数据挖掘技术辅助数据出版选题策划,主要是对已有文本数据库进行数据分析、对市场数据库进行数据比对,从中挖掘出隐藏的信息,从而快速生产出适合针对性读者群的出版活动。编辑进行选题判断的原则:不是所有的数据材料都适合做数据出版;需要先有故事,可利用数据库进行大数据分析预测故事发生地、发生概率;可用数据挖掘作者的潜在价值方向进行选题引导。
数据挖掘辅助出版选题的过程,需要做数据采集、清理筛选等。在数据出版过程中,整个数据挖掘过程的核心算法,需要将商业运营问题转化为大数据挖掘问题的算法,可从两类维度着重采用。一是分类维度。分类在数据挖掘领域是指一种数据分析形式,用来抽取能够描述重要数据集合的模型。读者流失率、销售效果、用户偏好等都属于数据挖掘的分类。常见的分类方法:决策树、贝叶斯、神经网络和逻辑回归等。二是预测维度。预测在数据挖掘领域,也是指一种数据分析形式,用来预测未来数据趋势的模型。常见的分析方法包括:简单线性回归分析、多重线性回归分析、时间序列等。
(二)内容创作:深度数据挖掘
通过自建、购买或第三方数据库进行数据抓取。数据包括数字、文本、图像、音频、视频等数据出版生产过程中所需要的数据。编辑需要使用Excel操作数据集,掌握Excel的基本功能及常用函数、数据透视表等软件应用技术手段,进行数据的搜集整理和可视化展示。
数据挖掘的工具和途径从入门到高级别可分为四个层次:第一层,了解统计学和数据库,达到理解入门层次;第二层,会使用数据库、统计学、SPSS软件分析,达到初级应用层次,可应用在调查问卷、选题策划、市场反馈等;第三层级,会使用SAS、R软件,达到中级应用水平;第四层级,熟练使用SAS、R和Python软件,可以达到数据挖掘师的层次,进行元数据的算法分类与制作。
(三)编辑加工:数据清理
数据出版并不是要展现海量数据,而是要通过筛选把关,围绕出版服务读者的生产流程的导向,做好编辑加工生产活动。利用数据技术和数据资源,展现思想创新是数据出版的创作源泉。
编辑需要使用多种计算机软件工具,提升数据处理效率。包括用Tabletools进行网页上下载数据表、使用OpenRefine做数据清洗、简单操作MySQL数据库系统、使用Python和API抓取网络数据、使用R语言和Selectorgadget插件抓取数据。以数据出版的编辑掌握计算机R语言为例,这是一种数据分析工具,用于统计分析、绘图的语言和操作环境。编辑可以采用R语言进行统计计算、数据分析和统计制图。这种自由软件开发共享理念,正是后文论述数据出版开放性、共享性理念的技术保障,也是一种趋势。
(四)出版物呈现:可视化构建
可视化构建,指通过数据过滤、深入挖掘、特定目标清理后,要对数据进行可视化设计,构建完整的作品。编辑需要根据数据需求选择图形,避免数据表达的图形误区,做出有设计感的信息图,掌握图形设计与配色原理,利用Echarts定制可视化图表,使用Tableau导入数据生成交互图表,用Datawrapper生成交互式作品。编辑可以用Tableau在线工具,这是一个数据发现、分析和叙事数据可视化的平台。Tableau将数据运算与美观的图表结合在一起。它方便地实现了数据连接,无需编程就可以创建地图、条形图、散点图和其他图形,还可以制作数据地图等。[5]
编辑可以用Datawrapper在线工具,它可以帮助用户创建交互式可视化数据。这是一个开源工具,能在几分钟内创建可嵌入的图表。编辑还需要利用新兴网络技术工具,将作品的部分章节、书评等内容进行网络营销。
(五)市场发行:短视频传播
在短视频时代,负责外宣的编辑、宣传人员还需要有视频剪辑、音频剪辑等辅助工作技能。编辑可以利用美图秀秀、Photoshop等修图软件对图片进行处理,包括裁剪照片、增减曝光、美化图片等应用。编辑可采用Audacity和Audition音频编辑软件,进行常规操作,包括修改采样率、增减音量、降噪、录音、淡入和淡出效果、从视频中提取音频素材、声音特效、声音合成和导出等。编辑可用视频软件Premiere和Final Cut Pro进行常用操作,包括素材的采集与导入、添加字幕、混合音频、编辑素材、制作简单特效、输出与生成等。
四、数据出版的未来
作为大数据时代出版学发展形成的新领域,数据出版代表未来出版的发展方向之一。数据出版是一种由数据驱动的出版活动,包括数据描述型数字图表的表达,但更多的是包含数据挖掘、数据量化分析,将数据背后的深层意义通过数据挖掘加以呈现,满足用户更加人性化、个性化的需求。
(一)数据出版的问题
数据出版在我国刚刚起步,还存在以下问题。
第一,出版社、期刊社、报社等传统媒体机构进行主动设置算法以及数据抓取、数据挖掘的比较少,还有技术、资金、人员、薪酬、制度等多方面的制约因素。传媒机构普遍开展数据出版采用的方式,主要是利用好现有数据并进行深度解读,依据政府信息公开化向社会公众提供了大量的开放性数据,将晦涩难懂的专业数据,依据不同的受众、不同使用领域,进行解读,转化为各层级读者能够理解的具体内容。数据较多来源于政府、专业垂直机构或第三方机构的现有数据。整体而言,出版业面临出版机构自建数据池不足、出版行业自建数据湖不足的问题。
第二,出版社、报社、期刊社等传统媒体机构建立专门的数据新闻制作团队比较少,传统新闻出版生产中的部门制度、传统采编流程、专门的数据项目制团队绩效考核等多方面因素还有制约。社会上既懂新闻出版传播规律与媒介规范,又懂出版、编程和设计的复合型、成熟型人才总量不足。对于传统传媒机构而言,数据出版团队工种多、战线长、投入大、培养成本高。这些客观条件制约了数据项目团队的建立。
如果想将数据出版做出规模,必须要有专业化人才队伍、合理的人才晋升发展空间、科学的运行机制,才有利于数据出版的专业化、规模化生产,让出版机构更好的服务于社会。
(二)数据出版所需人才的复合技能
出版业界迫切需要院校培养了解传统出版规律、编辑加工方式、传统写作、数据统计及分析、美术设计、互动设计等多方面能力的复合型人才。人才新增复合型技能如下。一是美编技能,包括使用Photoshop和Illustrator等工具设计图案、3D制作、图片设计和排版等。二是程序技能,包括使用HTML、Python、R、SQL等工具行进编写代码,实现数据获取和分析、数据可视化等。三是宣传发行技能,包括使用Audacity和Premiere等软件,进行剪辑视频、剪辑音频、混合视听制作等。四是数据挖掘技能,编辑需要熟悉挖掘的方法、挖掘的工具、挖掘的平台、挖掘如何应用等。
这些新职业技能的出现,也推动新兴职位在新闻出版企业机构中出现,比如数据挖掘工程师、可视化数据美编、数据新闻产品经理、图书选题数据分析师等。同时也需要编辑出版人才不断更新职业技能。
(三)数据出版传播途径
在媒介融合的大出版时代,数据出版产业模式特点增加了数据信息的传播途径,有如下几种。一是可视化传播。可视化传播在读图时代,是传播数据信息快速有效的一种途径。运用可视化传播,可以快速吸引读者的眼球,增强可阅读性,刺激用户购买的欲望。可视化图表除了美化设计,还更直观地表达了信息材料。一方面,传统纸质出版物在可视化呈现上相对单一,读图时代绘本类印刷型出版物受到追捧,数据出版的可视化设计将会扩展传统出版的文图呈现,让文字、数字更加生动。另一方面,数据出版可以借助数字终端形成富媒体可视化的出版,将更加扩展出版的表现形态,吸引更多的读者受众。二是叙事传播。传统的叙事方式已经在数字传播时代可应用范围一再缩小,但高质量作品依然能够吸引读者用户;数据挖掘辅助出版的选题策划、内容创作、编辑加工将提高出版的质量,扩展新型叙事传播。三是社交传播。社交媒体已经是当下最为快速的传递信息的方式,出版业利用数据新闻在出版的应用,通过一些社交媒体,进行出版主题议题设置制造数据热点,进行信息传播和舆论引导;通过社交媒体获得用户数据阅读偏好,进行阅读推荐;通过信息引导,出版众筹,引导用户参与数据出版的制作与分享,及时反馈数据信息给用户,拓展数据出版的传播力和引导力。
(四)数据出版的前景
数据在数字时代的广泛存在和便捷流动性,这一现象反映了数据源和现在可用的庞大数据无处不在。据克莉丝汀·伯格曼、格拉德威尔等外国学人预测,科学、医学、商业及其他领域的数据已经达到临界规模,接近数据临界点。数据临界点,指数据汇总已经超越流行阈值,并得以快速传播。达到数据临界点的领域意味着该领域的数据可以更加快速的产生、挖掘和分配。[6]这为数据出版的规模化发展形成了广袤的土壤。这种临界规模的形成,伴随信息资源商品化发展趋势,包括消费者购买行为、社交媒体、信息检索、学术出版和卫生健康监控等领域,都已经产生了新市场。这种趋势深受知识产权与信息经济政策影响,为传统出版的转型带来数据出版的新动能。
数据出版的基础设施是数据的开放与共享。数据开放旨在促进信息流动,提高系统服务耦合度及其协同工作能力。数据开放并不是指数据免费,而是指数据的有价有限流动,产生更大的数据经济价值。数据开放性的经济属性,正是数据出版的经济价值来源。数据开放需要经济和社会成本。数据出版是基于数据开放与共享的基础,进行深度的数据挖掘,创造新型可视化数字出版产品。数据出版的社会价值是推动数字社会的开放。数据出版将推动软件模型、标准、服务和知识协同生产等趋于开放,推动言论理性的自由。这种趋势将改变出版相关各利益相关者之间的关系。比如数据档案出版就将盘活档案资源,促进社会文化的传承,其社会价值比经济价值更高。
出版行业需要进行有限性的开放与整合,建立出版业自身的数据中心。比如公版书数据中心、地图出版资源数据中心、高等教育教材数据中心等。数据出版基础设施中心,一部分通过数据加密、数据版权、数字经营进行创收,获取利润,促进再生产;另一部分通过数据共享、加速知识流动,缩小知识鸿沟。数据信息流动在很大程度上依赖数据基础设施的发展。5G无线通信网络的容量和渗透能力不断增强,用于支持数据流动的工具和技术日趋增强。移动数据、学术数据和社交数据等都为数据出版的商业化培育了市场空间。这些都推动出版业加快建设大数据湖、小数据池等数据中心。
大数据技术的发展与应用令媒介融合势不可挡,这一趋势要求跨媒介、大出版的发展模式,而与之相关的政策管理体制也需要打破原有的条块分割,进行融合式的统一管理。在这方面,我们已经展开了一些有益的探索。全国已经开始试点建立大部门体制、推动大文化发展,包括北京、上海、杭州、南京等数十个城市被列为文化体制改革综合试点城市,在这样的背景下,在部分地区,文化、广电和新闻出版局等部门都已实行三局合一,实行了大部制。2018年国务院实行机构改革,重新调整了业务归口。传统印刷的原材料消耗大量木材,破坏环境,引发浪费和污染。纸张、油墨等原材料成本又连年增长,导致书价上涨,间接影响人均购书支出。数据出版是在媒介融合大出版的范围框架下的新兴形态,如果仅仅把数据出版理解成图书的数据化处理,就过于狭义了。传媒业推动媒体融合发展,需要从本质上坚持一体化的发展方向。媒体融合是有效整合新技术、新媒体的手段,数据出版可以让新兴媒体中的变量成长为提高出版传播效率、增加出版经济利润、增强出版社会价值的增量。
参考文献:
[1][2]衣彩天.数字出版的成熟阶段:智慧出版[N].中国新闻出版广电报,2020-06-10.
[3]衣彩天.数字出版的成熟阶段:智慧出版[N].中国新闻出版广电报,2020-06-10.
[4]我国首个地学领域数据出版专刊公开发行出版[OL].搜狐全国地质资料馆订阅号,2017-09-23.
[5]刘英华.数据新闻实战[M].电子工业出版社,2016.
[6]克莉丝汀•L.伯格曼.大数据、小数据、无数据:网络世界的数据学术[M]机械工业出版社,2017.