业内信息

人工智能和自然语言处理技术如何改变编辑工作

2020-08-18 来源:中国出版传媒商报 任洁
  目前人工智能正在出版行业的方方面面尝试作出改变,它真的会颠覆整个出版行业生态吗?编辑工作今后真的会被AI替代吗?笔者从自然语言处理技术的发展历程出发,深入人工智能与人类智慧对决的前沿地带,一窥究竟。

  人工智能与自然语言处理的概念。人工智能,是研究开发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用系统的一门全新的技术科学,是一种人类训练机器识别模式和学习新模式的方法。1956年,John Mc Carthy在达特茅斯夏季学术研讨会上提出了“人工智能”这一概念,这是人工智能公认的起源。自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,它研究实现人与计算机之间用自然语言进行有效沟通的各种理论和方法,致力于开发能有效地实现自然语言通信的计算机系统,特别是其中的软件系统,是一门融语言学、计算机科学、数学于一体的科学。所谓自然语言即人们日常使用的语言,是人类思维的证明,因而自然语言处理也是人工智能的最高境界,被誉为“人工智能皇冠上的明珠”。

  自然语言处理的发展历程。自然语言处理的发展历程可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中经验主义的体现,基于规则的自然语言处理则诠释了哲学中的理性主义。诞生于1913年的马尔科夫随机过程与马尔科夫模型的基础是“手工查频”,其原理就是统计《欧根·奥涅金》长诗中元音与辅音出现的频度。1948年,美国数学家香农在语言的自动机中应用了离散马尔科夫的概率模型,同时采用手工方法统计英语字母的出现频率。

  1956年,美国语言学家乔姆斯基建立了自然语言的有限状态模型,用“代数”和“集合”将语言转化为符号序列,“形式语言理论”的新领域诞生。1950年代末——1960年代中期,一大波著名的理论与算法应运而生。从1970年代开始,自然语言处理的研究进入了瓶颈期。直到1980年代初话语分析取得了重大进展之后,自然语言处理研究者对于过去的工作方向进行了反思,有限状态模型和经验主义研究方法才逐渐开始复苏。

  进入1990 年代,基于统计的自然语言处理焕发出勃勃生机。研究者的重心开始转向大规模的真实文本,句法剖析、词类标注、参照消解、话语处理的算法几乎都把“概率”和“数据”作为标准,经验主义开始空前繁荣。随着计算机运算速度和存储量的大幅增加,自然语言处理的物质基础得以改善,语音和语言处理的商品化开发也逐渐实现。同时,互联网商业化和网络技术的快速发展使得基于自然语言的信息检索和信息抽取需求迅速增加,市场需求又反向推动了技术的进步。

  新世纪为自然语言处理技术带来了爆发式的进展,多种尖端的技术发展为人工智能进入出版领域奠定了坚实的基础。

  自然语言处理技术的现状及其在出版行业的应用。书籍正是以语言形式传承人类文明成果的重要载体,出版行业也因此负有重大使命。今天,以人工神经网络为代表的深度学习技术已经在自然语言处理、计算机视觉、语音识别等领域取得了巨大成功。人工智能算法不断完善,依托卷积神经网络和循环神经网络对自然语言文本信息进行特征学习和文本分类也已成为技术前沿。机器翻译、机器问答系统、智能阅读理解等技术已经日臻完善,逐渐走入了人类的工作生活。这些技术的发展和普及为出版行业带来了巨大变革,在这一领域,人类智慧将携手人工智能,共同承担传播知识、传承文明的使命。

  智能审校系统。人工智能和自然语言处理技术在内容编辑活动中的应用,主要包括词汇级的检校、基于规则匹配及相似性算法的检校、基于深度学习算法的检校以及基于自然语言技术进行语义层的检校。我国在这一领域作出了很多研究和尝试。目前在应用上比较普及的黑马校对软件,结合在汉语切分、汉语语法分析、汉语依存关系分析等技术方面的不断进步,有效提高了查错准确率和校对效率,填补了编辑在专业知识上可能存在的不足。方正电子携手北京印刷学院成立“智能审校联合实验室”,以“自然语言处理”“深度学习”“知识图谱”等技术为基础,开发了方正智能辅助审校系统。凤凰传媒集团基于自身拥有的庞大数据资源,开发出了百亿级语料库,通过人工智能纠错引擎和自然语言处理技术,研发了凤凰智能校对系统。百分点公司开发的智能媒体审校系统充分利用了自然语言处理、机器学习、深度迁移学习技术,在提升校对质量及审稿效率的同时确保内容的安全生产。此外,市场上还有方寸智能校对系统、达观数据的文档智能审阅系统、字根科技开发的JCJC智能校对解决方案等编校系统。这些智能审校系统基于海量词汇数据和人工智能技术,有效提高了查全率和准确度,降低了专业图书的审校门槛,同时可以精准发现并排除敏感词,确保出版内容的方向正确和实用性,为读者提供更加优秀的阅读体验。

  智能编辑流程管理。编辑的日常工作流程主要包括选题策划、内容编辑加工、内容校对审核、产品出版发行和用户信息反馈等。实现这一流程的智能化管理有助于提高编辑的工作效率,降低出版社运营的人工成本。知识产权出版社运用其在大数据、现代信息、人工智能等方面的技术优势,自主研发了一套集版权保护、智能化编校排、图书出版、印刷服务、版权管理与运营于一体的出版全产业链生态系统——“中知编校”智能图书编校排系统。该系统采用模块化工作模式,含智能审校、原稿留痕、电子折校、自动排版等多种模块,实现了书稿状态追踪、审校过程自动统计、出版过程文件实时保存、编辑作者通过系统平台便捷沟通、编校排全流程电子化管理等功能,还从源头保障作者的合法权益。

  人工智能提升了编辑工作效率,但不能替代人类智慧。面对那些需要对内容进行复杂、深度分析和解读的工作,人工智能技术的表现还不能完全令人满意。特别是在判断作品的思想价值导向、梳理复杂的逻辑关系、处理细微的情感表达,以及深度解析复杂语义等方面,人工智能技术依然难以替代人类。人工智能技术可以改变人们的阅读方式和阅读体验,但其在内容创作中只能起辅助性作用,具有深度的阅读内容仍然需要人类完成,也只有人类才能保持对优质内容的永恒追求。在弱人工智能时代,出版业要合理利用智能化软件,重视人才的储备,重视人在内容创作中的情怀体现、工匠精神和情感共鸣能力,在人工智能的协助下优化内容产品、提升产品质量,担负起普及知识、服务社会、传承文明的责任与使命。

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号