【摘 要】梳理图书出版大数据应用现状,分析当前图书出版大数据应用存在的问题,系统梳理图书出版产业链数据流、信息流关键节点及反馈流程;针对出版业大数据标准缺失问题,在全域集理论基础上,提出图书出版多元异构大数据标准描述方法,为出版业大数据标准化建设提供一套可行的理论支撑。
【关键词】大数据;全域集;标准化;图书出版
在过去很长一段时间里,大规模全样本数据的存储和分析对人类而言难度较大。随着数据存储、分析技术的升级,人类可以存储和处理的数据量大大增加,大数据的概念应运而生。“大数据”一词自2008年开始在科技领域出现,引起了学术界的广泛关注,目前已成为继互联网、物联网之后又一项颠覆性的技术变革,其发展正在重新定义国家战略决策、企业管理决策、业务组织流程以及社会管理方式,加快了各行各业产业结构转型升级的步伐,给大量传统行业的生产制造及销售环节带来了极大的冲击和改变。[1]图书出版业一方面受市场经济影响,新书出版品种、印刷数量逐年增高;另一方面受线上图书零售、电子书的冲击,许多传统纸质图书滞销,带来了产能过剩、资源浪费等一系列问题。我国各大发行集团及各级图书销售商为解决这些问题虽然采取了一定措施,但从全产业链来看,产业链上下游各方数据标准不统一,难以发挥大数据在出版业的作用,图书出版全域大数据的标准化建设工作刻不容缓。
1 图书出版大数据应用现状
1.1 CNONIX标准与推广
CNONIX是中国图书在线信息交换标准的简称,是一套根据ONIX标准研制的适用于中国国情的图书在线信息标准,该标准出版的原因之一就是满足更丰富的在线图书信息需求。[2]CNONIX标准的实施为图书出版大数据建设及应用提供了大量的数据基础,是当前图书出版大数据标准化建设推广程度最高、应用效果最好的大数据标准之一。CNONIX标准实施前,由于图书产品信息标准不统一,传统ERP图书书目信息数据来源分散且格式多样,互不相融的图书书目信息形成大量信息孤岛,ERP中充斥着大量不完整、不规范的冗余数据,难以为图书出版大数据提供数据支撑。2013年6月,原国家新闻出版广电总局批准发布CNONIX行业标准,2013年12月,国家标准《中国出版物在线信息交换图书产品信息格式规范》(GB/T30330—2013)发布,自2014年7月正式实施。CNONIX标准提出了一种描述、传递、交换图书数据的规则,在XML格式基础上制定数据描述规则,实现了产业链上出版单位、发行单位、图书馆和物流企业间数据的交换和共享。[3]截至2018年5月,共有两批51家单位加入了CNONIX标准示范工作,中金易云等一批数据公司也纷纷与业内单位合作,建立了大量基于CNONIX标准的大数据平台。[4]
1.2 图书零售大数据
大数据自问世以来,便以惊人的速度融入社会生活的方方面面,从电商服务到智慧城市,从日常娱乐到教育学习,凡是能产生数据的地方,都有大数据的身影。在图书出版领域,不论是国外的Amazon,还是国内的当当、京东,电商都是应用大数据的先行者,应用大数据技术,从数据中挖掘商业规律已成为线上图书零售商家的核心领域。[5]Amazon线上书店运营伊始,聘请了20余人组成的专业书评团队,以书评为指针向顾客推荐图书。随着平台运营数据的积累,Amazon愈发意识到海量用户数据对业务的重要性。在对海量用户数据分析后,Amazon构建了图书推荐系统,该系统很快起到了优于书评团队的效果,并得以大力推广。目前,国内外线上图书零售大数据从收集到分析再到指导企业经营管理,已基本形成较为成熟的大数据应用模式。在大数据的加持下,线上图书零售一路高歌猛进,大有打垮传统图书零售之势。然而,自2015年Amazon在西雅图开设了第一家实体书店后,国内外线上图书零售商纷纷布局线下,开启了线上线下一体化经营的模式。图书是一种特殊的零售商品,读者的直观感受在图书购买过程中至关重要。线上零售虽优势众多,但就图书零售而言,线上零售始终难以带给读者传统图书零售所能提供的购物体验。[6]在此背景下,线上书店与线下书店开始由对立走向统一。电商积极部署线下实体书店,2015年当当对外宣布计划3年开设1000家线下书店,其中福州店、长沙店更成了“网红书店”。传统线下图书零售商也积极开通线上业务,传统书店中最具代表性的新华书店由总店牵头,联合全国各省市新华书店共建网上商城,读者在新华书店网上商城下单后,系统会自动识别配送,与配送区域所在的线下门店对接,就近发货。[7]
与线上书店庞大的数据量、丰富的数据种类相比,传统实体书店长期以来对图书出版大数据的贡献仅局限于销量数据。在物联网技术日渐成熟的背景下,实体书店从业者抓牢这一机会,纷纷开展转型升级。曲江书城、博库书城、志达书店以及各类无人书屋等将RFID、图像识别等数据感知技术融合在书店智能化改造中,将以上技术应用于门禁、图书查询、结账等环节。已开设的智慧书店中,图像识别技术主要应用于智慧书店出入口,会员读者在完善人脸信息后,可以通过扫描人脸出入书店;RFID技术主要应用于结账、查询环节,书店通过配备具有RFID扫描功能的自助收银台、智慧机器人及智慧书架等设备,辅助读者完成图书快速查询、自助结账。[8]智能书店不仅为顾客提供了更为便利优质的购书体验,也为图书出版产业链大数据提供了更为丰富的图书购买原始数据。
2 大数据背景下图书出版产业链数据流、信息流
传统图书出版产业链主要包含“编、印、发、销”4个环节,但就其功能来看,“编、印”两环节隶属于出版端,“发、销”两环节隶属于发行端,包含中盘商、分销商、零售商等。小数据时代,数据量少、维度少,统计学家只能随机抽样,抽取小样本数据进行预测。大数据时代,人类掌握的数据已无限接近全样本数据,图书出版大数据也应包含图书出版产业链中涉及的所有数据集。大数据驱动下的图书出版产业链升级,并非由产业链上某个节点升级实现的,而需全产业链上下游数据贯通形成大数据流才能得以实现,如图1所示。

图1 大数据驱动下的图书出版产业链
图1以图书物流为主线,分析了大数据驱动的图书出版产业链升级路径。大数据的重要作用在于应用其分析结果指导实际生产管理,因此大数据应用实则包含原始数据采集以及数据处理后的分析结果应用两个层面。原始数据是指图书从“出版商——顾客”这一过程中产生的图书产品信息数据、物流数据、仓储数据、销售数据等未经处理分析的原始数据;处理后的分析结果是指从业单位处理分析原始数据后形成的,可用于指导各环节从业单位生产管理的信息。大数据驱动的图书出版产业链升级主要体现在数据流、信息流在产业链中的流转,数据流与信息流在产业链中的良性反馈机制的建立是推动图书出版产业链转型升级的重要驱动力。
2.1 数据流视角下的图书出版产业链
产业链上的关键节点数据集主要包括出版端的图书产品信息数据,发行端的仓储、物流以及读者行为数据。图书产品信息数据在自产业链上游的出版商流向下游的经销商、零售商以及供应链上的其他业务伙伴,在图书管理、出入库、上架、销售等工作中起到了至关重要的作用。长期以来,由于标准缺失,产业链各环节都在为同一本书重复加工图书基本信息数据,且各环节的数据难以通用,造成极大的人力物力浪费。为解决这一问题,CNONIX国家标准应运而生,CNONIX标准为图书产业链上各参与方提供了统一的图书产品信息格式,随着落地实施及数据积累,标准化的图书产品信息数据逐渐成为产业链出版端最为重要的数据集。仓储、物流数据贯穿于全产业链,物流数据主要由产业链上游提供给产业链下游,仓储数据则由产业链下游提供给产业链上游。读者行为数据主要来自零售环节中读者购买图书时的查询、预览、翻阅、购买等行为。查询是指读者完成预选图书的查找、搜索;预览是指读者初步阅览拟选定图书的作者、标题、出版社、封面等,往往用时较短;翻阅是指读者进一步阅览拟选定图书的内容,用时比预览更长;购买是指顾客最终完成图书选购。以上4个行为环节形成了图书购买行为链,链条上每一个环节均能够产生大量读者行为数据,如图2所示。线上图书零售商已广泛应用读者行为数据采集手段,但传统线下图书零售商大多只关注图书销售额及销量,对于购买行为链上其他数据既无采集意识,也无采集手段。随着RFID、图像识别等数据感知技术在智慧书店中的应用,线下书店读者行为数据的采集也成为可能。

图2 图书购买行为链
2.2 信息流视角下的图书出版产业链
大数据驱动下的图书出版产业链升级的重点是信息流的反馈机制。零售商作为图书出版产业链末端,从数据流角度看是产业链数据流入最多的一环,从信息流角度看是产业链信息流出最多的一环,产业链上各环节处理原始数据后得到的信息主要来自零售商。大数据背景下,零售商对读者行为数据等进行分析后,便可以为出版商提供图书选题建议、图书受众分析、不同种类图书需求等一系列信息,也可以为读者提供图书精准推荐,线上、线下活动精准推送等信息。传统图书出版中,出版社只能通过发行商了解图书销售情况,并不能了解每类图书的准确受众,读者与出版社之间信息互通的缺失致使出版社难以针对目标读者完成精准选题和精准营销,发行端大量图书购买行为数据的缺失也导致了图书滞销等一系列问题。产业链上的信息流动为读者与出版商之间搭起一座数据桥梁,出版商能够通过信息流更深入地了解市场风向、明确读者喜好,同时也能够更为合理精准地预测印量,避免大规模盲目印刷带来的资源浪费。
3 基于全域集理论的图书出版大数据标准化研究
随着图书出版领域大数据技术的应用,图书出版领域的数据量、数据种类日益增长,既有数据秩序不断被打破,数据形式越来越复杂,需要进行标准化的业务范围越来越广。大部分产业链上的参与单位在大数据建设过程中,只强调数据获取的途径、性能、量级,没有考虑到数据的具体分析、利用以及相应的靶向问题与目标,许多数据在采集后缺乏统一描述标准,造成数据没有可用之处、使用不充分等问题,进一步造成了不同业务领域间、不同企业间的数据标准化不配套、不协调、甚至相互矛盾的问题。这些问题的存在不仅会产生大量重复劳动、浪费资源,还会增加产业链上各参与方的管理难度、沟通协调难度。相较于工业技术领域,新闻出版领域标准化工作起步晚、发展相对缓慢。新闻出版领域应抓牢大数据机遇,加强图书出版大数据的标准化研究,充分发挥标准对行业新技术的引导、推动作用。在此背景下,本研究针对图书出版大数据应用场景及功能模块建立规范化的图书出版大数据谱系描述模型,为图书出版大数据标准化建设工作提供一套可行的多元异构大数据标准化表述理论模型。
图书出版产业链参与方众多、技术专业众多,各项数据从采集到使用存在大量不确定性的、非结构化的、模糊性的字段。针对这一问题,将数据管理问题以数学集合论的形式进行高度抽象,引入全域集理论[9]及方法,针对图书出版大数据涉及的数据分类标准与描述方法,指导和规范图书出版产业链上各环节、各单位、各部门间不确定的、模糊的、非结构化的信息集成与数据共享,全面提升行业智慧化程度。
将全域集定义为S=(A,B,F,J,D),A与B是非空经典集合,A描述数据产生的范围;B对A中所有元素的描述构成集合;F是A到B的映射,为A中所有的元素定义了描述(隶属函数);J是一个对F构成约束的界壳(范围);D表示数据的可变粒度。对于图书出版大数据而言,全域集中A代表各独立业务系统中的全域字段结构,A={A₁,A₂,…,An},Ai的结构即数据库表结构。B是对A在不同领域决策环境变换后的特征描述,B={σ(A₁),σ(A₂),…,σ(An)}。F可由多种传统集合逻辑运算得到,也可通过智能算法实现。J表示数据分析需求与业务范围的论域约束,可抽象出系统边界的普遍共性。D表示B中不同字段变换构成的关联结构表集合。[10-11]
在基于全域集概念的数据描述体系下,大数据系统内不同数据的构成方式决定着算法对数据集标签的训练精度。全域集提供了一种可行的理论框架,采用全域集描述图书出版大数据字段,一方面规范了数据标准化表述,为突破子系统之间的数据壁垒、建立标准数据库提供数学理论支撑;另一方面则以数据粒度可变性为代表,规范一系列标准化数据性质,继而提升智能算法在分析应用图书出版大数据时的识别精度和运行效率。
4 结语
随着数据采集、存储、分析技术的不断发展和完善,大数据带来的机遇与挑战不容忽视。目前,图书出版大数据采集、应用仍处于起步阶段。图书出版大数据建设过程中,除CNONIX已经形成良好的标准化推广成果外,其余各环节各参与方在大数据的采集、分析、应用方面均未形成统一标准。产业发展,标准先行,标准化对于图书出版大数据而言具有关键作用。针对图书出版大数据标准化,应优先从顶层标准数据体系入手,以多元异构数据标准化表达为突破点,以后期分析处理算法为实现路径,逐步形成完备的图书出版大数据标准体系,为实现图书出版产业链转型升级和智慧出版提供有力支撑。
参考文献
[1]徐宗本,冯芷艳,郭迅华,等.大数据驱动的管理与决策前沿课题[J].管理世界,2014(11):158-163.
[2]唐贾军.CNONIX标准和ISLI标准的互通应用研究[J].出版参考,2018(10):5-9.
[3]高宇飞,郭剑.基于CNONIX标准的出版物供应链管理研究[J].出版广角,2019(22):38-40.
[4]周耀光.打造基于CNONIX的行业大数据服务平台:中金易云关于CNONIX的探索与实践[J].出版参考,2018(11):33-36.
[5]程新晓.大数据在出版行业的应用初探[J].出版广角,2019(23):37-39.
[6]平林.关于出版行业大数据应用的几点思考[N].中国新闻出版广电报,2017-12-25.
[7]徐文松,王立新.殊途殊归:亚马逊、当当实体书店的发展及经营策略[J].编辑之友,2018(11):42-45.
[8]刘念,闫玉刚.实体书店的智能化发展策略及优化路径:以新华书店为例[J].科技与出版,2019(12):49-53.
[9]李学伟,张若冰.创新研究推动智慧北京关键技术发展[J].北京联合大学学报(人文社会科学版),2020,18(3):1-10.
[10]程晓亮,张旭.多元复空间中的几个凸域及其关系[J].吉林师范大学学报(自然科学版),2018,39(2):40-44.
[11]何利力,张星.基于全域市场数据感知的终端客户推荐[J].计算机系统应用,2020,29(5):136-143.