【摘 要】随着云计算和人工智能等技术的发展,大数据的应用正在向教育出版领域渗透。教育出版社如果能通过大数据技术,获得大量学习者的行为轨迹及消费信息,优化选题策划和市场营销方式,从而向用户提供更有针对性的学习产品,则可以在竞争中取得较为明显的优势。文章分析了教育出版社在应用大数据时面临的主要困难,并提出了解决思路。
【关键词】大数据;教育出版;融合创新
随着计算机技术和网络技术的快速发展与普及,大数据时代已经来临,每时每刻都有新的数据生成,全世界的数据在以两年翻一番的速度增长。随着智能手机等手持终端的普及、各种APP的开发与应用,数据的增长速度越来越快。
1 大数据的概念
大数据是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。[1]2012年12月,舍恩伯格在其所著的《大数据时代》中富有预见地指出,大数据带来的信息风暴正在变革人们的生活、工作和思维方式,大数据开启了时代转型,人们迎来了大数据时代思维的变革、商业的变革和管理的变革。[2]当代数学家及人类学家托马斯•克伦普在《数字人类学》一书中指出,数字的本质是人,数据挖掘就是在分析人类族群自身;处于一定时间、地点条件下的人类族群活动是一个动态系统,所有特定的聚居人群的经济、社会和政治都是一些动态系统。从这个意义上说,“人人都是建模者(modeller)”[3]。按照托马斯•克伦普的观点,数字本质上是人的行为和客观世界运动的记录,是人类行为和客观世界的数字符号化或者定量化。在小数据时代,人类行为数字化只限于处理具有严格逻辑性的结构化数据,难以量化处理杂乱无章、瞬息万变的人的情感和心理行为数据,而大数据改变了人类掌控数据的能力,大数据MapReduce、Hadoop等非关系数据分析技术,大大提升了人们分析和处理大量非结构性数据的能力。大数据“一切皆可量化”的功能和价值使“量化人性”成为现实。被称为大数据预测专家的埃里克•西格尔因此提出了“量子人性”的概念。他认为,在大数据时代,人们对人性的认识已经由传统定性分析的经验层面进入精准量化分析的量子层面。[4]艾伯特•拉斯洛•巴拉巴西指出,人类行为93%是可以预测的,人类大部分行为受制于规律、模型以及原理法则,而且它们的可重现性和可预测性与自然科学不相上下。[5]
2 大数据对于教育出版的意义
2011年,美国麦肯锡公司在报告《大数据:下一个竞争、创新和生产力的前沿领域》中,明确指出:基于海量数据的分析对于提升企业的行业竞争力有很大帮助。出版业作为我国文化产业的重要组成部分,一直承担着为全社会生产文化产品的任务和使命。在近些年来,出版物品种极大丰富,但是优质出版物并不充足,供给没有完全适应需求的变化,出版供给侧结构性矛盾越来越突出。同时,出版印刷纸张和人力资本不断增加,出版成本不断增高,这在很大程度上限制了出版社的发展,内容生产举步维艰。这些出版业的普遍问题同样存在于教育出版社。此外,教育出版社还面临着教育类图书在面对学生个性化学习需求时,无所适从的窘境:既不能让程度好的学生有挑战,也不能让程度中等的学生使用顺手,还不能做到让程度不好的学生有练习可做。
这是现代教育所面临的最古老的教育问题——因材施教。在过去,由于受地区教育资源不均、教师经验智慧存在差距、学生对自身认知的局限性等因素的影响,“因材施教”更多依赖提升教师的教学经验和智慧水平。而在教育信息化迅猛发展的今天,这个状况已有所改观。
如今,在“三通两平台”和“网络学习空间人人通”等工程的实施下,全国绝大多数中小学校都拥有了“班班通”等多媒体教学设备和教学资源,地区教育资源不均问题得到了很大程度的改善。各种教育APP和在线校外培训机构也在一定程度上推进了教师和学生的信息技术应用能力。2018年,教育部发布的《教育信息化2.0行动计划》,也进一步推动数字化学习进入新的阶段。
教育出版社作为教学内容提供者,在“因材施教”方面最终要实现为每一个学习者提供最适合的学习产品和服务。这个过程的本质是一个传播行为,想要提升传播质量,必须对拉斯维尔提出的传播学“五W模式”的每一个基本要素进行透彻分析——传播者(教育出版社),传播内容(教育产品和服务),传播途径(营销模式),传播对象(学习者),传播效果(最终实现“因材施教”的教育理想)。
这就需要教育出版社通过互联网、大数据等信息技术,掌握足够的学生的基本信息、状态变化、能力水平等数据,绘制出属于每一个学生的“用户画像”,并据此优化出版社内容资源、做好选题策划,实现精准传达和精品输送。这是对出版社现有出版观念和出版流程的根本性转变,真正做到“以学生为中心”,切切实实地为每一个学生提供适合他们的学习产品。而对于教育出版社自身来说,这是实现由内容提供商向综合信息服务商转型的绝佳机会,必定会开启新一轮的快速发展。
3 教育出版社如何用好大数据
教育出版社可以以数据驱动云出版,通过大数据获得学习者的用户画像,从而在出版物的选题精准度、产品定价、市场营销等方面为学习者“量身定做”和“私人定制”。需要说明的是,出版的本质是传播优质内容,图书和在线产品仅仅是呈现形式的不同。互联网时代教育出版社在产品形式上可以是纸质图书,也可以是讲课视频、在线测试、在线练习等在线教育产品。
3.1 通过用户画像模型,科学解释和描述学习者
对教育出版社而言,学习者的数据采集是大数据技术应用的起点。如何去冗降噪海量数据,如何清除无效数据、垃圾数据和过期数据,如何处理半结构化和非结构化数据,以及如何将本地文件、Excel统计文档等不同来源不同类型的大数据整理进已有的大数据流程等,是教育出版社普遍面临的难题。
《大数据背景下营销体系的解构与重构》一文中,黄升民等人指出,可以挖掘对消费者网上行为数据,将大数据抽象提取为用户的特征标签,从而组成用户画像。用户画像能够有效地对大数据去冗降噪、提高非结构化和半结构化数据的处理能力。[6]教育出版社可以通过用户画像,科学地解释和描述目标用户,并在此基础上进行精准的产品策划、生产和营销。
具体说来,用户画像是在全样本的大数据基础上,对每一个用户的数据进行分析,抽取出若干有效数据,归纳成若干具有代表性的标签,用标签集合描绘出一个现实用户的虚拟模型的过程。[7]具体的数据挖掘方法有分类法、关联规则法、决策树分析法、协同过滤法等。用户画像的标签分为静态标签和动态标签。教育产品用户画像的静态标签包括人口属性(姓名、年级、籍贯、学段等)和人格特征(兴趣、能力、性格等),其动态标签包括交易行为、学习行为和社交行为3个方面。教育产品用户画像如图1所示。

图1 教育产品用户画像
3.2 结合数据与经验开展选题策划,优化产品结构
目前教育出版社的选题策划大多是由策划编辑依靠自己的工作经验来进行的,具有较强的主观性和不确定性。而采用问卷调研和深度访谈等形式进行调研时,学习者处于种种考虑不会完全展现能力薄弱点、学习方式偏好等方面的真实情况,导致基于调研数据的实证分析结果失真。大数据时代,教育出版社要学会利用图书销售数据和用户学习数据辅助选题决策,选题策划要从完全的经验决策模式逐步过渡到数据与经验相结合的判断模式。
教育出版社要挖掘群体学习者的共性特征,并根据学习者个体学习大数据提取和优化学习者个性特征,形成用户画像。用户画像与知识能力图谱共同作用,动态地规划出学习者个性学习路径集。教育出版社据此整合和优化内容资源,做进行选题策划。
从出版的角度看,教育出版社可以根据用户画像,统计相应的图书销售数据,进行针对性的数据分析,在选题上向畅销图书靠近,避开滞销图书的选题。通过分析学习者的学段、学习行为和交易潜力,教育出版社可以确定产品的市场策略和生产数量,并在产品上市后及时监测评价反馈,根据产品的学习路径和学习交互过程,对内容进行优化和改进。学习大数据驱动下的教育出版原理如图2所示。

图2 学习大数据驱动下的教育出版原理
教育出版社通过综合运用数据与经验,逐步调整纸质图书和在线教育产品的结构,进一步压缩不适应市场的产品,做大做强精品,提高有效供给。
3.3 推送符合用户需求的产品,开展营销创新
根据大数据建立用户画像,出版社的营销人员可以精确了解每个用户的需求,可以将用户需要的产品通过各种社交渠道推送给用户,达到理想的营销效果。纸质图书可以采用基于智能分组的出版物推荐系统来进行,只要读者在淘宝、京东、拼多多、当当、亚马逊有过购买出版物或浏览过出版物的记录,该系统就可以进行相关出版物推荐,激发读者潜在需求,缩小产品比较范围,加快决策速度,提高成交率。对于在线教育产品,教育出版社则可以通过分析学习者的学习数据和交易数据,借助社交平台或电商平台,为学习者推荐符合其学习特征和实际需求的优质学习资源,并制定更优的定价策略和订购模式,促进交易的达成,将潜在用户发展成现实用户。
在大数据辅助定价方面,国际学术出版机构的做法值得借鉴。施普林格公司的Springer Link平台详细地记录了用户每年约2.25亿次的交互数据、网页点击、关键词搜索等数据。SpringerLink以大数据为基础,根据出版物的内容和形式制定不同区间的版税,尽可能地实现优秀文献资源的商业价值。2016年,施普林格数字媒体业务达到22亿欧元,占公司总收入额的67.4%。[8]创建于1826年的法国阿歇特出版集团则对消费者需求进行“跟踪”,根据市场需求决定图书的价格涨跌。应该说,施普林格和阿歇特出版集团在通过大数据挖掘出版业潜在商业价值方面,提供了宝贵的可借鉴经验。
4 教育出版社使用大数据的困难及对策
4.1 出版从业人员的数据素养不足当前,不少教育出版从业人员的数据素养还比较欠缺,需要进一步培养他们使用数据改善教育产品的能力。数据素养包含数据意识、数据知识、数据能力、数据道德4个方面。数据意识是指教育出版社的人员要有基于数据进行选题策划和市场营销的意识。数据知识是指采集数据、分析数据、管理和评价数据的知识,也包括数据处理工具、数据政策法规等方面的知识。数据能力是数据素养的核心,主要包括数据处理能力和数据在教育类产品中的应用能力,即利用大数据洞察学习者需求、诊断学情、提高教育产品质量的能力。数据道德是指出版从业人员能意识到数据会涉及伦理和道德问题,在数据获取和使用中注意其合法性。
在互联网时代,教育出版从业人员要改变观念,充分认识到数据对产品策划、营销的重要性,并主动提升数据素养。教育出版社也要把员工的数据素养,作为部门考核、职称评定、绩效工资、员工评优等的必要条件,促使员工掌握大数据理论知识,在工作中主动运用大数据,成为主导数据的主人。此外,教育出版社也可以与专业的数据分析公司合作,弥补自身人员数据素养的不足。
4.2 出版业大数据挖掘和应用体系仍有待完善
虽然国家已经把大数据体系建设上升到战略高度,但是与其他行业相比,我国出版业还没有建立可以保护、挖掘、分析和利用大数据的成熟的行业性平台。与此同时,越来越多的出版社意识到数据是战略性资源,这也导致了不同出版社、不同平台的数据共享面临更大的困难。公共数据平台的缺失,使数据很难真正做到全面性和准确性。
出版业大数据挖掘和应用体系的建设除了政府的积极组织实施外,还应该动员全行业的力量,充分发挥政府和出版企业在大数据挖掘和应用体系建设中各自的优势,从而建立起科学系统、专业智能的符合出版业需求的大数据平台。
4.3 用户数据安全防护尚未形成有效办法
隐私权是我国居民的一项重要民事权利。《网络安全法》规定,网络运营商在收集、使用用户信息时,必须提前在用户协议当中公开说明收集和使用用户信息的目的和方式,未经用户同意,不得泄露、篡改和兜售用户信息。而广大用户在进行互联网搜索、浏览和交易时,会无意识地泄露自己的客观信息和主观偏好。如何充分利用大数据为业务服务,又同时保护好用户的隐私权,是教育出版社需要攻克的一项重要课题。
教育出版社需要通过各种手段和措施保证用户数据的安全性,如建立隐私权保护部门,针对用户隐私进行风险内控;使用数据标签对数据的创建、应用、存储、传输、销毁等行为进行规范;将数据安全防护作为员工绩效考核的重点指标,与员工签订保密协议书,一旦发生数据泄露事件,将对主要负责人进行追责。
大数据时代已经到来,教育出版社正处在由传统出版向数字出版转型、实现媒体融合的重要阶段。构建基于大数据的系统应用能力,有利于教育出版社形成极大的竞争优势,开启新一轮的高速发展。
参考文献
[1]维基百科.大数据[EB/OL].[2019-10-18].http://en.wikipedia.org/wiki/Big_data.
[2]维克托•迈尔-舍恩伯格,肯尼思•库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.浙江:浙江人民出版社,2012:67-88.
[3]托马斯•克伦普.数字人类学[M].郑元者,译.北京:中央编译出版社,2007:110-111.
[4]埃里克•西格尔.大数据预测[M].周昕,译.北京:中信出版社,2014:259,235,149.
[5]艾伯特•拉斯洛•巴拉巴西.爆发:大数据时代预见未来的新思维[M].马慧,译.北京:中国人民大学出版社出版,2012:Ⅲ.
[6]黄升民,刘珊.大数据背景下营销体系的解构与重构[J].现代传播,2012(11):13-20.
[7]葛晓鸣.基于“用户画像”模型构建的精准营销策略[J].辽东学院学报(社会科学版),2019(8):50-57.
[8]axelspringer官方网站[EB/OL].[2017-11-04].http://www.axelspringer.de/en/index.html.
[9]阿尔文•托夫勒.第三次浪潮[M].朱志焱,潘琪,张焱,译.北京:新华出版社,1996.
[10]张新新.新闻出版业大数据应用的思索与展望[J].科技与出版,2016(1):4-8.
[11]胡正荣.传播学总论[M].北京:北京广播学院出版社,1997.
[12]彭松,陈玥.国内外传统出版与互联网垂直整合的趋势探析:以哈珀•柯林斯出版集团与中国出版集团为例[J].出版科学,2015(3):48-57.
[13]吴锋,陈雯琪.法国阿歇特出版集团最新动态及经营模式[J].出版发行研究,2014(2):95-98.
[14]牛温佳,刘吉强,石川,等.用户网络行为画像:大数据中的用户网络行为画像分析与内容推荐应用[M].北京:电子工业出版社,2016.
[15]张海迪.大数据技术赋能数字出版产业发展[J].新闻传播,2019(1):57-58.