智能语音在数字出版领域的应用探析_中国（武汉）期刊交易博览会（刊博会）

　　【作　者】李国光：四川传媒学院

　　【摘　要】智能语音是在当今互联网时代，以数字技术为基础的，在新兴媒体平台可以实现人机互动的新型语音技术。随着用户需求的多元化和人工智能技术的发展，智能语音在数字出版领域的广泛运用将成为实现智慧城和智慧生活中的一个重要技术支持，文章以智能语音在有声读物出版中的应用为例，总结了智能语音的发展现状和特点，提出了智能语音在数字出版领域的发展方向，以期对人工智能在促进数字出版的发展中提供可借鉴的路径。

　　【关键词】智能语音；数字出版；有声读物

　　1　我国的数字出版现状

　　近年来，传统出版业在媒介技术的发展之上，借助于科技的力量，推动文化和技术相互渗透融合，不断拓展出版边界，发展成为新型的出版形式。作为大众传媒之一的数字出版在不断的转型升级中，完成了从技术嫁接到融合出版的初步发展。2020年是“十三五”收官，“十四五”谋划的关键之年，5G、人工智能、大数据、云计算等新兴技术为出版融合发展提供了无限可能，也是产业变革的重要驱动力量和数字出版业创新发展的基石。基于这些新技术，集内容创作、生产、传播和应用于一体的全新内容服务模式在各细分领域里正在被越来越广泛地应用，我国出版业的转型之路正从相加迈向相融，从单一的知识产品转向场景化、精准化、个性化的知识服务，数字出版正在从数字化、网络化向智能化发展。

　　2　智能语音在数字出版中的应用

　　近年来，随着全民阅读的开展，有声读物广受欢迎，听书已经成为全民阅读新的增长点，以喜马拉雅、懒人听书、得到App、蜻蜓FM、荔枝FM为代表的移动有声App平台和有声微信公众号已成为有声阅读的主流方式，在有声阅读市场上发挥了重要作用，智能语音在有声读物中的广泛运用也将成为数字出版“十四五”规划的发展重点。

　　智能语音是在数字出版技术共享的基础上形成的新的语音集聚效应产业，通过用户使用数据收集，抓取受众关注内容，采用语音读播，充分调动受众听觉刺激，形成线上与线下互动的内容投送新模式。以数传集团为例，其研发的RAYS系统，通过扫码可以获取了书本上的内容，实现边走边听、边走边看，充分利用碎片化时间完成有效的知识增量。通过利用智能操作实现语音传输的线上线下互动，满足读者在多场景下的深度阅读，与此同时读者也可以根据自己的用户体验反馈问题，这样不仅丰富了书本知识的输出方式也实现了读者价值再造，增强读者与书本生产者之间的资源融合。

　　2.1　人机交互增加互动性

　　智能语音实现了“人机对话”，不光能听会说，还能理解会思考，融汇了认知学、人机工程学、心理学等学科理论，通过电极将神经信号与电子信号互相联系，达到人脑与电脑互相沟通的技术，不仅开启了机器与人的思维连接，也为知识服务智能化提供了可能。

　　语音交互作为人机交互的发展方向，正逐步深入到我们的日常生活和应用中去。在数字出版领域，智能语音在儿童教育出版领域应用广泛，在少儿教育场景，智能语音发挥的空间会很大，由于儿童是语言发展的最初阶段，智能语音可以增强传授双方的互动效应，提高儿童对语音内容的解读兴趣。由此可见，智能语音在少儿语言教学中可以进行中英文发音的测评和纠正，对少儿语言学习中具有重要作用。同时，在少儿动画中插入场景化语音交互，能够起到寓教于乐、提升沉浸感的作用。在人机交互的过程中，围绕不同年龄段儿童的成长特性，智能语音还可以进行童声识别，实现与儿童的智能对话，提高儿童的语言表达能力。除此之外，智能语音还能进行儿童语音合成，机器模仿儿童的声音进行语音交流，提高了儿童学习的兴趣。在交流的过程中，还可以通过对儿童兴趣爱好的大数据抓取，分析发现他们感兴趣的新主题，通过互联网链接并推送给儿童，实现对儿童的理解能力、表达能力、知识储备等等方面的综合提升。例如，安徽微云科技有限公司旗下的阿尔法蛋将人工智能与儿童教育深度结合，在教育过程中实现了语音的智能化交互，成为儿童学习时重要的学习助手。

　　2.2　语音识别提升语言运用能力

　　2019年8月17日，北京互联网法院发布《互联网技术司法应用白皮书》，阐述了十大典型技术应用，其中就包括语音识别技术。随着科技的发展，智能语音技术将成为智慧城市、智慧生活、智慧媒体发展的一种基础支撑，也将成为人们获取信息最便捷、最有效的手段。在多场景、移动化、双屏互动的现代化交互终端的使用中，语音识别技术是目前发展较为成熟的技术之一，在深度学习推动下，近场语音的识别率可达98%。

　　人工智能在有声读物中的运用可以实现高效化的文本与声音的转化，降低生产成本。在会议场景，智能语音识别技术具有“现场速记+翻译”的功能，百度开发出了全球首个基于神经网络的机器翻译（NMT）系统，大学英语六级翻译中，语音翻译的正确率可以高达93%，远远超过考生的平均水平；科大讯飞推出的翻译机能进行33种语言翻译。当然，智能语音翻译在实际操作中不能做到百分百精确，但可采用人工智能协同翻译的形式来作为有声读物制作的补充，这样既能节省出版社编辑的组稿时间，也实现了出版资源和流程的简单高效。除此之外，在出版领域，智能语音还可以将现代纸质书的内容通过智能语音技术进行拓展化编辑，根据书本的内容加上一些周边产品，例如视频教程、有声版电子书、在线答疑、线下沙龙等，这不仅满足了受众对相关知识的深度需求，同时也拓展了数字出版的市场范围。

　　2.3　语义合成满足用户个性化需求

　　在数字出版领域，伴随着智能化服务的外延拓展，满足用户需求的多样化是智能语音在出版领域发展的趋势之一。在当今移动互联网时代，当社交媒体的信息量超出受众的吸收能力时，就会使人们感到“数据窒息”，出现信息冗余效应，会影响用户获取信息的效率和体验感，导致信息传播效率低，信息丧失原有价值。在数字出版领域如何提高信息的利用率，增强受众对语音出版的兴趣，则需要通过对受众的使用心理与行为进行数据分析，实现精准推送和反馈数据收集，通过智能抓取收录受众喜欢的资讯媒体和公众号文章，编辑精选过的重要资讯，在听觉上实现信息资讯的智能化收听。另外可将有声读物的音频特征纳入推荐基准，进入语音数据库，同时对用户经常检索、收藏的有声读物的音频进行分析和归类，实现有声读物精准化推送。

　　英国社会学家齐格蒙特·鲍曼提出了液态化传播的概念，认为现代社会的最大特征是液态化，各种社会关系呈现流动、轻盈状态，信息的接受者同时也是传播者。在智能语音出版过程中，语义合成技术占有重要的地位，语义合成技术可以实现有声读物的个性化定制，以满足不同类型受众的需求，在内容方面的选择不再拘泥于内容提供商或平台运营商提供的内容产品，而是根据需要进行语义合成，让智能语音内容“活”起来，成为流动的资源。

　　此外，语义的合成可以满足读者建构自己语音素材库的好奇心，通过制作自己喜欢的有声读物，在使用时实现舒心和悦耳的享受。例如，使用配音软件，激发智能语音在情感发音与人声合成时能够具有很强的代入感，既有情感的宣泄，又可以进行多种人声的合成，通过智能调节背景音乐的效果，实现语音合成的智能化订制，让受众产生很好的体验感。

　　3　智能语音在数字出版领域的发展思考

　　伴随着数字技术的发展，智能语音出版将来可以使用在智慧城市、智慧服务、智慧教育等各个领域，其市场需求量很大。人机交换技术是智能语音出版的核心，就目前国内企业掌握的产品来看，其核心知识产权、较完善的硬件技术等方面还有待加强。在智能出版时代，如何将智能语音在数字出版领域更好的为受众服务，这是智能语音今后发展的方向。

　　3.1　提升方言识别率，拓展产品的受众面

　　方言是极具特色的语言体系，它属于人类社会生活的一部分，与受众朝夕相处的一种语言体系，智能语音出版系统对方言识别还有待加强。一方面通过构建语音识别模型，提升方言识别率，增强智能语音的方言交互能力。比如微软、IBM、Facebook、高通和埃森哲等已经开发出了自动化工具，用于检测AI算法中的偏见，增强语言的多样性。最近Nuance的语音识别系统也做了很大的改进，通过收集各地区的方言建立语音识别库，增强智能交互能力。同时，在语言交流时的语境也很重要，在不同的语境下，受众会产生不同的反应，所以在建构语言识别模型是应增进语境模仿；另一方面丰富语音库中的方言种类。语音库中方言的样本数量越多，多样性越高，得到的模型就越准确。通过大量声音数据及其语音模型的建立，理解不同单词、短语和声音之间形成的清晰联系，人工智能便可以更加了解不同的口音，提高识别能力。提升方言的识别率，可以更好地解决音频产品的生产和转化，减少因为方言产生的翻译错误，降低语音付费成本，提升用户体验，增加受众面。据艾媒咨询公布的报告中，2018至2019年我国一线、二线及三四线城市中仍有部分用户不愿为有声读物付费，分别占比28.6%、35.3%和44.9%，有声读物生产商面临着成本高且销售难的问题。

　　3.2　提高数据标引质量，做到数据精准的抓取和推送

　　根据艾媒咨询数据显示，受疫情影响，我国有声读物行业需求得到激发，用户规模进一步增长，2020年中国的有声读物用户达到5.62亿人，预计未来用户数量接近6.5亿人，市场规模将达到63.6亿元，个性化定制将成为智能语音在有声读物出版的发展方向。在有声读物方面，个性化定制正在成为一种发展趋势，用户渴望在海量的信息中获取自身需要的价值内容，这就对数字出版中数据资源的标引提出了更高的要求，要对语音信息进行结构化标引和存储，将原先以书籍、学科为出版单元的语音内容资源按照行业、知识点、关系和属性进行标引，形成知识数据元，做到数据的精准抓取和推送。在家居场景下，智能语音主要应用在智能家居的使用中，解决的主要要求即简单查找、应用调取、陪伴式聊天等功能。该类功能涉及到生活中的琐碎细节，这就需要增强设计中数据标引质量和与场景相似的关联度，做到数据的精准抓取，提升使用者的使用好感。

　　3.3　解决远场语音交互中的噪音问题

　　远场噪音环境下的语音识别、多人语音识别是制约智能语音交互的难题，在数字出版中，智能语音在远场环境中交互能力的提升也是智能出版面临的一个难点，在不同环境下进行回声消除、噪声抑制是今后智能语音在技术方面发展的方向，要根据有声读物的内容和特点，从声学原理、算法、芯片、MEMS麦克风切入，打通上、下游产业链，提升声出版物在远场环境中的交互质量。

　　解决远场语音交互中的噪音问题，可以提升受众对语音语义的理解感受力。通过解决远场语音交互中的噪音问题，使受众在使用智能语音阅读对话时，可以实现随心所欲的语音切换互动，实现无卡顿无延迟的互动反应。通过噪音抑制，在不侵犯文字文本的版权下，让有声出版物中的语音反馈功能实现多元化。在语音阅读或者语音对话中实现节奏、语调、音效等个性化编排，实现实时场景式互动阅读。

　　3.4　在媒体融合的背景下提升智能语音产品的应用效率

　　智能语音产品正在智能手机和可穿戴设备中实现不同形式的应用。但是智能语音产品应用到人们日常生活中的频率还是较小，如智能手机中的各类软件基本都有智能语音功能，但是受众的使用频率较低。从智能手机语音功能的实践效果上看，语音在开放场景下识别准确率还有待提升，语音交互效果感受有待改善。技术的不断发展需要推动产品的迭代升级，不同场景下的智能语音产品需要实现根据场景的切换功能。

　　在数字出版产品中，充分利用VR、AR等技术的人机互动产品越来越多，也颇受读者喜爱。近年来，只能音箱、多场景互动式语音播放实现了解放双手，拓展了语音出版的空间。据市场研究机构Canalys数据显示，小度音箱第一季度出货量达到330万台，仅次于亚马逊的460万台和谷歌的350万台，阿里巴巴和小米紧随其后，出货量均达到320万台。数字出版领域的知识服务在人工智能技术的深入应用中，可以打破传统出版的思维桎梏，智能语音传播使语音知识传播变成了以智能为核心、以服务为竞争力的智慧知识服务模式。

　　4　结语

　　伴随着媒介融合的趋势，智能语音出版也在丰富和繁荣着融媒体生态环境的变化与发展。智能语音出版在满足用户个性化需求的过程中也在改变着传统的数字出版方式，让用户在轻松愉悦中享受解放双眼，尽耳动听的时代正在改变着我们的环境、教育与生活。新的技术与数字出版相融合，打造精品化，品牌化产品，赋予智能语音出版新活力。

　　参考文献

　　[1]刘一鸣,高玥.人工智能语音在有声读物中的应用研究[J],出版发行研究,2019-12-26.

　　[2]吴俊宇,智能音箱迈过早熟期[EB/OL].(2020-01-03)(2020-12-30)https://baijiahao.baidu.com/s?id=1654702488049776943&wfr=spider&for=pc.

　　[3]李国光.VR和AR在图书出版领域的应用探析——以教育培训类图书和童书类出版为例[J].青年记者,2019(11):91-92.

业内信息

智能语音在数字出版领域的应用探析