业内信息

人工智能时代出版业“数据+算法”运营模式的关键

2019-09-26 来源:《科技与出版》
  【作 者】程忠良:安庆师范大学传媒学院;马骁:北京师范大学珠海分校老师

  【摘 要】随着5G、数字化、云计算、物联网等信息传播技术的发展和应用,数据的价值将大大凸显,“算法+数据”将成为未来商业竞争的关键所在。文章立足新的媒介技术生态与商业生态,认为出版业打造未来“算法+数据”运营模式,它有两个关键,其一是构建用户价值方向的数据,打造出版业未来运营模式的前提;其二推动数据、算法与人协同,打造未来运营模式的动力。

  【关键词】数据;算法;协同

  未来已来。伴随着数字化、网络化、大数据、物联网、5G、区块链等信息技术向出版业产业全链条进行渗透,出版业传统的运营生态业已颠覆,新的商业模式正在形成。新的商业模式将改变工业经济时代所追求的满足最大公约数的规模经济模式,转变成信息经济时代追求满足偶发性、低频度、高场景度、体验性、集约性等信息需求的经济模式[1]。这种具有巨大市场利好空间的非共性、个性化、定制化的经济模式,通过数据进行用户画像(谁)、渠道画像(什么渠道)、场景画像(什么环境)和内容/服务画像(什么内容或服务),再通过算法完成用户与内容(或服务)二者间的精确匹配,从而实现用户需求的“千人千面”。这种运营模式正如阿里巴巴集团学术委员会主席曾鸣教授所说,数据化、算法和产品在反馈闭环中完成了“三位一体”的运行。[2]从另外一种角度来说,新的商业模式当中,“算法+数据”将成为未来商业竞争的关键所在。

  面对全新的出版业发展生态,出版业要打造“算法+数据”商业模式,从某种角度上看,它有两个关键点,其一是构建用户价值方向的数据,打造出版业未来运营模式的前提;其二推动数据、算法与人协同,打造未来运营模式的动力。本文拟从数据与算法这两个层面着手,尝试探讨这个问题。

  1 构建用户价值导向的数据,打造未来运营模式的前提

  传统意义上,企业一般是依靠一系列的社会调查统计,依据调查的用户、市场、企业本身等数据进行产品或服务定位,然后进行大规模标准化生产,这种粗放式、强调共性、忽视个性的生产方式容易造成企业新品存活率低。数据显示,即便是国际巨头公司,其新品存活率也不超过百分之十几,从而导致企业大量的研发等资源的浪费。现在是企业拿到内容(无论是来自于专业生产、机器生产或社交媒体生产的内容)后先依据已有专家和用户反馈的数据做内容(或服务)画像(认识它是什么样的内容),再分析用户场景、相关渠道(如何服务),根据用户数据确定用户画像(确定这是什么样的用户),然后做不同的分发模型,确定哪些内容在哪个模型下推给哪些用户,不断试错(如果推荐的内容不是用户所需的,就马上换一种),最后根据用户的点击、转载、评论及停留时间等反馈进一步丰富用户画像,最终最大限度地满足用户的个性化需求(将用户所需的内容销售给所需用户)[3]。如今日头条、一点资讯等就能做到每个人所看到的内容千人千面。在这个新的商业模式中,数据是整个商业运转的中轴。

  因此,构建什么样的数据等问题就成为商业发展的重要前提,对于这一问题,以下三个方面内容值得经营者去思考。

  1.1 数据积累挖掘的出发点

  出版业构建数据的出发点是用户价值导向(不是企业价值导向)。其内涵包括:①基于用户价值导向所获取的“人”的数据,最终形成基于用户精准认知基础上精准用户画像的数据。如用户社会属性、生活习惯、消费喜好、需求痛点等等数据。②基于用户价值导向的“物”的数据,最终形成基于对产品或服务精准认知基础上的精准内容或服务画像。如微信读书是专家和用户采用打分、排序、评级等方法将出版业的产品按一定的品类进行标签(好比图书馆馆藏书籍诸如经济学类、文学类等目录标签一样),进行内容或服务聚类等(算法要做的就是实现两者精确匹配,如用户A需求是X,就需要从产品或服务画像中找到与X相似度非常高的内容或服务推荐给A)。这个出发点改变了传统的商业运营以追求企业价值导向所关注的数据,如ERP、销售率、库存率、利润率等,这种以企业为导向的模式如今慢慢失去其价值了。

  1.2 数据对于未来商业的重要性

  “数据将重新定义企业资产和基础设施”[3],数据对于出版业的经济学价值:①在于它与算法结合,可以有效地降低企业运营成本(如数据赋能供应链可大大提升效率)。②在于可以更好满足用户的个性化定制化需求,促进有效供给并能提高竞争力。③可以促进产品或服务高效地更新迭代(根据反馈等数据进行修正预测用户需求等)。

  未来十年,全球70亿—80亿的移动设备(如智能手机、智能电脑、智能家居等)都会被数据化,数据的积累、挖掘和分析在新的技术发展支撑下将变得容易,数据的价值将大大凸显。“以前制造业靠电,未来的制造业靠数据。”[4]数据是出版业未来运营的第一生产资料,出版业产业链每一个环节的发展将建立在数据挖掘分析的基础上。如依靠数据挖掘分析应用,出版业可以精准认知用户的消费习惯、用户消费的场景、用户喜好等,从而获取精准的用户画像;依靠数据挖掘分析应用,出版业可以精准获得诸如作者、内容分类、评分等精准的内容或服务画像;依靠数据挖掘分析应用,出版业可以精准施策,通过不断试错实现内容画像与用户画像二者之间精确匹配(就像试衣服,第一件大了,就找一件稍小点),使产品或服务更加精准、有效地满足用户个性化的需求[5]。这也正是伴随着物质相对充盈的背景下成长起来的“95后”和“00后”,越来越看重的追求自我的个性化时代要求。

  1.3 需要什么样的数据

  对于出版业来说,若要占领未来商业竞争的最高点,就必须要把握其运营需要什么样的数据。即这些数据应具有哪些特点,从某种意义上说,出版业未来商业模式所需的数据应该具有以下特点。

  (1)多。指数据的多维度、多样化,单一维度的数据就像心智不全的人一样是没有多大竞争力的,这可以从用户和企业本身找到答案。对于用户来说,用户的需求是多方面的,因而单一维度的数据其作用是有限的(如只知道某个人喜好某种内容的书籍是不行的,至少还需要支付数据支撑,因为如果这件东西超出他的购买能力就不能购买)。对于出版企业来说,出版企业的经营活动是一个系统,如何从宏观架构上将多维数据,如用户画像数据与出版企业产业链上其他数据形成连接(如作者、产品策划者、技术开发商、技术运营商等),从更大范围内聚集和整合更多的社会资源,更好地满足用户个性化需求将是出版业经营者所需要思考的。出版业要尝试通过产业链生态去构建多元关系数据协同,以此来提升出版业经营效益。如社交关系数据、场景数据、内容画像数据、支付数据等。社交关系数据可以实现社交互动、社区营销和基于关系进行产品推荐(如甲买了某本书,就可以尝试向其好朋友乙推荐此书);场景数据可以支持各种场景变换(如在腾讯读书提供朗读版和文字版,在运动时变换为伴随性阅读,在静止时变为文字等);内容画像数据可划分为各种类,针对不同的人提供不同的类;支付数据可尝试根据用户的支付能力发展付费用户等。

  (2)快。即比别人快一步。主要指基于数据挖掘而形成的快速反应、快速决策和快速产品迭代。数据的“快”包含两个层面的含义。第一层含义指的是第一时间了解既有出版业用户的基本特征,如你的用户是谁,他长成什么样,他的阅读习惯、社会关系等。第二层面的含义指的是第一时间得到并分析出版业用户反馈,如用户在产品停留了多久,其评论、转发等,然后根据反馈迅速改正提升用户体验(如字符大小、不同光线下的亮度等)。

  (3)活。即基于用户实时场景的数据。数据分为历史数据和实时数据,只有实时的用户场景数据才会产生真正的价值。5G、移动设备、定位系统、传感器等信息技术的应用为出版业获取用户实时的场景数据提供了无限可能。如通过定位系统了解你所处的位置,推测你可能会去哪儿,第一时间推送气象信息、旅游信息、地域风情文化等,基于场景的大数据挖掘所延伸出的服务(在旅途中看书和静下心来读书),将在找到精准受众后,实现多方面的互惠,同时还可以使生产成本最小化,使效益最大化。

  (4)通。即打通各个维度的数据。数据没有打通,就会成为孤岛数据,就没办法进行大规模应用,其效用将大打折扣。如策划者、作者、制作者、出版商、发行商、用户的数据连通,可以在精确用户画像基础上迅速地提供相关服务,如用户喜欢某种内容某位作者的书或信息,出版者可通过数据打通方式,为用户寻找到适合用户需要的服务。如用户在什么地方,用的是什么媒体,喜欢什么样的方式及时提供用户所需要的书或服务。

  (5)能。即赋能,数据只有赋能生产、消费等才会产生经济价值。出版企业所积累挖掘的数据只有赋能出版业内容生产才能产生真正的价值。如积累了用户画像的数据、市场的数据、反馈的数据赋能出版业决策、生产和管理,提高产品的价值和针对性,提升出版企业效率。腾讯执行副总裁汤道生曾说,腾讯将利用自己对消费级用户的理解,更好地为行业伙伴提供产业服务[6]。即把多年在用户端积累的用户数据,采用toB、toG和toC的方式将其赋能产业,从而发挥更大的市场价值。出版业需要向这些巨头学习如何进行数据赋能。

  2 推动数据、算法与人协同,打造未来运营模式的动力

  数据只有从用户中来、到用户中去才会发挥其巨大价值。也就是说,数据只有通过算法对出版业选题、策划、生产、传播、消费等方面赋能时才起作用。人工智能时代的出现,从某种意义上说就是海量数据同算法结合的结果,移动互联网、物联网产生了海量的数据,算法完美地解决了海量数据的收集、存储、计算、分析及如何赋能的问题。这其中,人的作用不可忽视。目前算法对出版业的渗透诸如机器人写作、人工智能监测、可视化呈现到算法分发等,都是数据、算法与人相互协同的结果。因此,重视算法的作用,重塑传统依靠编辑记者的生产模式,是出版业经营者需要认真对待的,如第三方监测机构易观曾发布了一个具有标志性意义的数据:早在2016年,在资讯信息分发市场上,算法推送的内容已经超过50%。它意味着,我们现在接触到的信息,主要是由“智能算法”为我们搜索和推送的[7]。

  出版业要重塑未来产业发展的动力,就需要在理解掌握数据、算法、人的协作关系,从战略架构上重塑数据、算法和人的协作关系,推动数据、算法、人与产品互动反馈“四位一体”良性循环发展,从某种意义上说,这需要把握以下三个问题。

  2.1 正确认识算法、数据与人三者之间的关系

  对于算法来说,数据是前提和基础。可以这么说,数据是算法的基础,算法是数据挖掘分析的应用。一方面,数据挖掘分析依赖数据,针对垃圾数据进行挖掘分析出来的仍旧是垃圾;另外一方面,数据通过算法起作用。收集积累挖掘数据需要耗费出版企业一定的成本,数据的价值是通过算法在实际应用产生的,如将出版企业中现有的数据转化为知识,作出归纳性推理,从中挖掘出潜在的算法模式,预测客户的行为,帮助出版企业的决策者调整市场策略,减少风险,作出正确的选择等。

  当然,数据、算法的选择和使用都是人的智力作用下的产物。对数据分析来说,算法的本质是为了满足人们特定的目的,算法的范围、目标等是在算法运行之前就由人给定了。因而至少是目前,一些复杂问题,不要过分依赖于算法,一方面,算法是人设计的,它需要不断地吸纳人的经验和知识,算法只有“站在人的肩上”才能不断优化迭代,更好地为人类服务;另一方面,算法只是人类创造的一种工具,其使用效果还需要与人进行协同才能获得最大化。

  2.2 正确认识算法的作用与局限

  算法的局限包括两个方面,其一是难以克服的,另外就是可以优化的。

  1)难以克服的局限。

  (1)算法本身是基于“可量化”“可测量”的基础上的,事实上很多现象是无法可量化和无法可测量的,同时,通过量化、测量中所产生的机构、个人和概率的偏差,可能扭曲科学的评估、发布以及消灭“事实”。

  (2)算法并不是万能的,只能够有限满足用户的需求。

  (3)算法是人设计和选择的,它需要通过人而起作用。市场形势是极其复杂的,资源是有限的,用户需求上存在着汝之毒药、人之蜜糖的现象,算法作为一种工具,只是在人类智力选择和设计中发挥它的作用。

  2)可优化的局限。指的是随着数据积累挖掘分析技术的不断进步,通过算法迭代可以逐步完善。目前主要指:

  (1)虚假新闻的产生。Facebook因算法推荐造成美国大选因传播不实信息而被推上风口浪尖,因为算法并不能有效区分真实信息和被夸大或者被改造的信息。

  (2)信息品质的降低。算法推送迎合人性,在流量经济模式驱动下,算法可能会带来更多的“星、性、腥”类等低俗化内容(如今日头条被人广为诟病),造成信息品质下降,同时,“标题党”等问题的出现,也对新闻业价值带来冲击。

  (3)“信息茧房”现象。算法为了增强用户黏性而产生的迎合用户喜好的推荐内容,可能带来用户接触的内容越来越狭窄,并强化其固有的偏见。

  (4)信息过载的问题。算法推荐常常采用的“瀑布流”推荐模式,其提供的海量推荐内容会耗费用户大量时间,并且可能让其难以自拔。

  (5)社会黏性缺失。算法对个性的强调、重复和肯定可能会妨碍用户涉猎不同领域的内容以及对不同见解声音的了解,可能会强化个体的主体性而造成社会黏性缺失和社会认同感降低等。

  然而这些方面都是可以随着算法迭代等方式得到消解,如今日头条称,正在尝试使用机器算法消除虚假信息的传播,其机器通过收集分析各类用户反馈识别虚假信息的准确率达到60%,结合人工复审可进一步提升到90%。

  2.3 构建大范围的数据、算法和人之间的协同

  从上面分析可以得出,算法代表了一种先进的生产力,但同时算法不是万能的,机器在某些方面可以消除偏见,又可能产生新的偏见,因而,出版业现在要做的是,不要过分迷恋数据和算法,而是要在决策、生产、监测、分发等领域构建人、算法、数据和产品之间的互动协同。这方面有很多方式方法值得出版业经营者去探索。同时有以下三点值得出版业经营者注意。

  (1)数据、算法和人之间协同的目的有二:从社会价值角度看,是为了更好地服务人类、提升人的自主性和社会发展(如推荐的多样性,防沉迷等);从经济学角度而言,是为了从全球角度整合出版业资源,构建有效供给,节约资源,提升竞争力,从而实现社会效益、经济效益等共赢。

  (2)数据、算法、人与产品之间协同的发展空间非常广泛。出版业经营者需要从体制机制上构建分工合理、有效协同的运营模式,在克服算法局限性的基础上,探索数据、算法、人在出版业流程(如选题策划、信息采集、信息加工、效果反馈等)方面的作用,形成数据、算法、人与产品互动一体的产业发展闭环。又如时间方面,将“快新闻”、抢时效的新闻让智能机器人去做,将具思想深度与人文厚度的新闻产品让人来做。

  (3)多方发力,减少负面影响。探索多种方法,通过人机协同减少虚假新闻、信息茧房、信息过载等。一方面,需要不断对算法进行优化、迭代,提升算法服务社会的作用;另一方面,要不断提升人类的信息素养,促进人类思维能力与技术同步提升,在知识和信息成为消费主义客体的时代,要构建个人的自律、理性和批判力,不要轻易被算法所推荐的内容所左右。

  3 结语

  “算法+数据”代表了出版业未来商业运营的主流模式,在其运行过程中,将不可避免出现各种曲折,正确认识数据以及算法的价值与局限,构建用户价值导向的数据、算法、人与产品立体互动的四位一体运营模式,是出版业经营者现在及未来一段时间内必须要思考并且需要在实践中检验的。

  参考文献

  [1]喻国明.谈谈中国传媒产业发展的选择、战略与姿态[J].新闻战线,2018(11上):81-83.

  [2]曾鸣:智能商业:数据时代的新商业范式[EB/OL].(2017-04-17)[2019-03-01]..

  [3]程忠良.人工智能时代出版业发展模式进化的三大路径[J].科技与出版,2018(7):127-131.

  [4]马云:以前制造业靠电,未来制造业靠数据[EB/OL].(2018-09-20)[2019-03-01]..

  [5]程忠良.“互联网+”时代出版业社交化战略分析[J].出版发行研究,2017(10):35-37.

  [6]腾讯高级执行副总裁汤道生:未来将扎根产业互联网[EB/OL].(2018-11-01)[2019-03-10]..

  [7]喻国明,韩婷.算法型信息分发:技术原理、机制创新与未来发展[J].新闻爱好者,2018(4):8-13.

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号