【摘 要】人工智能技术在现代生活各个领域中的应用越来越广泛和深入,智能审校则是属于出版工作中的人工智能技术。结合出版工作中的实际应用场景、广泛征集智能审校方面的用户需求、分析智能审校的基本功能,在数据支撑、词库建设、智能审校的算法等方面,在出版单位和技术公司的联手攻关下,智能审校技术取得了阶段性成果。另外,借力云词库、知识众筹等新技术、新概念,智能审校技术还将取得新的突破。
【关键词】智能审校;基本功能;应用现状;资源共享;知识众筹
一、智能审校的必要性
人工智能技术在现代生活各个领域中的应用越来越广泛和深入,在出版工作中也不例外。智能审校则是属于出版工作中的人工智能技术,而且由来以久。虽然出版单位和技术公司在智能审校方面的探索一直没有停止过,但是,在海量而有效的数据支撑上、在通用词库尤其是专业词库上、在智能审校的算法上,其演进的广度和深度还不能完全满足出版工作的实际需求。有几个典型案例可说明这个问题。
一是《咬文嚼字》公布的2018年度“十大语言差错”中的第六条,是关于世界杯赛事报道中的一个错误表达:“争夺冠亚军”。己进入决赛的两队,力争亚军的说法显然是错误的。二是某些媒体在报道相关新闻时,常用“360度”大转弯来形容某人态度的巨大转变。如:“什么?某某某一夜之间360度大转弯!”用360度代替180度,意思完全相反。这种修辞错误,其实更是一种简单的常识性差错。以上两个错误如果由人工进行审校,在通读时很容易被忽略,而且现有的智能审校工具也难以直接甄别出来。
此外,在2018年12月的一次业内经验分享会上,某出版社编辑提到一个在编辑工作中遇到的、需要审校工具能够直接进行智能判别的实例一“临近”和“邻近”。这两个词,孤立地看没有问题,但是一旦放到具体的语境中去,到底是用时间上的“临近”还是用空间上的“邻近”?智能审校工具尚不能进行正确判别。这对相当有经验的出版专业人员来说问题不大,但如果所有的审校内容都完全依赖于个人的工作经验和能力,效率就会较为低下。如果审校工具解决了这方面的问题,无疑可助力我国出版物编校质量的全面提升。
浅层次的智能审校功能是依托庞大的、不断更新的后台数据库,实现对全书一般字词差错的勘误。而岀版单位在审校的智能化上追求的更为深层次的需求是:联系上下文,判别单个字、词、专业术语在文中的准确运用;音近、形近字词在特定语境中的准确取舍;语法正确与否的判断;句与句之间、段与段之间的起承转合是否合理;全文层级结构的正确性、合理性和逻辑性。从何处入手来解决这类问题的智能审校算法?这都是技术开发方需要长期关注的问题。
二、智能审校工具应具备的基本功能
(一)对稿件内容“异同”的审校
1.同一电子稿件的“异同”审校
智能审校工具对同一稿件内容“异同”的审校,首先体现在对书稿同一层级标题的体例异同的辨别。同一层级标题体例的审校包括字符属性及段落属性,包括字体、字号、正斜体、颜色、标题占行等的异同。其次还体现在对图、表、公式的编码方式的异同辨别。比如,前几章图片编码方式为“图1-1,图1-2……”,后几章则变成了“图2.1,图2.2……”,甚至同一章中都会存在编码不一致的情况。如果完全由人工逐一审校难免挂一漏万,而借助智能审校的技术手段则可以解决这一难题。
2.不同版次稿件的"异同”审校
针对不同版次的电子稿件,在编辑加工阶段,责任编辑可以分屏的方式查看前版次文档和后版次文档之间的差别,在正式发稿后,还可以将专业排版软件排岀来的前、后版次的文档进行比对,审校字符以及图片上的细微差别。
(二)对“是非”和查重的审校
借助软件或插件工具,可实现的“校是非”的功能有:依托逐步完善的智能数据库,实现对稿件中“是非”(重点检查“似是而非”的错误)的智能审校;全书内容自身的查重以及与己经公开出版或发表的同类文献的查重。
(三)对“不可见”问题的自动审校
一般情况下,审校过程指的是编、校两个阶段。其实,智能审校在现实应用中,早己贯穿岀版全流程。从作者撰稿开始,到岀版流程中的付型、付印为止,智能审校始终都有介入。到了付型、付印阶段,用于印刷的PDF文件是否符合印刷要求,肉眼是“不可见”的,专业技术人员虽然可以凭借丰富的工作经验发现并解决问题,但是效率不高,准确率也难以达到100%。但是,通过软件“印前检查”功能,可自动生成检查列表,从列表中查看、定位并处理有问题的页面。重点需要智能检查的有:色彩模式、专色设置、陷印设置、图像分辨率等,看其是否符合印刷要求。
三、智能审校的应用现状
智能审校工具的研发和应用,离不开各方面的支持和努力。行业主管部门对文化产业(包括岀版行业)在政策、资金、资源整合方面的支持力度是一以贯之的,比如“国家数字复合岀版系统工程”里就包含智能审校领域的项目。岀版单位在转型升级的过程中,与技术开发公司积极合作,也从未停止对智能审校工具研发的脚步。2017年10月,由岀版单位和北大方正电子有限公司共同发起,共29家单位在北京自发成立了“复合岀版生产流程创新应用联盟”(以下简称“联盟”),联盟成立了智能辅助编校系统研制小组。在_次研讨会议上,十余家成员单位的数十位代表分享了智能审校系统的阶段性技术研发成果。不仅如此,小组还要求成员单位在需求征集、经验交流、成果分享等方面的工作要常态化。这些举措都加快了智能审校系统研发的速度。
(一)常用软件自带智能审校功能
Word软件是编辑加工电子原稿最为常用的软件。在Word中,可对自动校对选项进行预设;可全文查找、定位、替换;大纲视图可用于直观地检阅全文层级;还可以进行拼写和语法的检查,对选中内容的信息检索、翻译、简繁转换、原文档和修订文档的比较等,这都属于智能审校的范畴。
专业排版软件一般都有预设的首选项。主要包括:拼写检查、自动更正、排版规范预设、目录提取、文件处理(主要是检查链接和创建链接)、分色和陷印检查等,这些都属于专业排版软件中的自动审校功能。
(二)研发型智能审校软件或插件
1.知识产权出版社研发的智能化编校排系统
在印刷菲林被淘汰、CTP技术全面推广之后,有再版价值、没有电子文件的图书资源如何获得“新生”?知识产权岀版社自主研发岀基于原版原式的智能化编校排系统,其中的电子化折校功能一一“横校”“纵校”可解决这一难题(如图1所示)。通过高速扫描仪,将原版图书自动、连续地双面扫描,生成连续性PDF文件,再经过OCR识别,形成双层PDF。但是OCR识别的结果,不可能保证100%正确,利用该智能系统的“横校”“纵校”功能(横校是忠于原版原式的版式纠错,纵校是字符的自动纠错),错误率仅仅0.03%。

图1 电子化折校
此外,智能编校排系统可以将修改部分和原稿自动一一对比,并自动标注岀修改内容,编辑和校对人员只需检查修改内容,提高了图书再版和修订的工作效率。
2.北大方正研发的智能审校软件
到2018年底,由北大方正电子有限公司正处于研发阶段并投入试用的智能辅助编校系统目前己初步开发完成11项功能,包括:易错词检查、敏感词检查、医学不规范名词检查、千分位检查、连接符检查、全半角检查、单位间隙检查、单位大小写检查、单位正斜体检查、上下文查重检查、图表公式序号检查等。
(1)智能编辑器
北大方正电子公司自主研发的,安装于WORD上的插件一一智能编辑器,具有批量处理、智能审校功能。可批量处理的项目有:全半角符号、数字和单位规范化、换行符及超链接等(如图2所示)

图2 智能编辑器“批量处理”功能
(2)方正云舒数字云平台
北大方正电子公司开发的方正云舒系统中,包含云平台、岀版客户端、排版客户端以及印厂客户端。该系统集成了一定的智能审校功能。一是服务于印刷的“预飞服务参数”功能。“预飞服务参数”是在排版、付型阶段对半成品(半成品)版面文件自动审校的预设,通过预设后对印刷区域、兼容性、页面元素、图像、颜色的检校,令其符合印刷要求。
二是不同版次(或校次)的版面文件像素级自动比对功能。不同校次的半成品文件之间、前后版次的成品文件之间,可以利用该功能进行像素级比对。同一页面可以分屏对比,也可以叠加对比,可以直观地找岀两者的不同点(如图3和图4所示)。

图3 分屏对比示意图

图4 叠加对比示意图
四、联手攻关,助力智能审校技术的研发和应用
现有的智能审校工具中,其专业词库的广度和深度有待拓展和挖掘,审校工具也没达到真正的智能化。智能审校的研发、应用之路,该向何处去?岀版单位和技术公司应整合资源,利用在各自专业领域中的优势地位,联手攻关智能审校技术,如词库建设、审校需求、编校样例由岀版方提供;整合资源及优化智能算法则由专业技术公司来主导。
(一)资源来源及处理方法
1.知识众筹模式
审校需求和词库来源,首先是来自岀版单位。不同专业领域的各岀版社,长期积累的审读资源来自真实应用场景。技术公司通过在线采集,在系统后台由专业人员整合这些宝贵的资源,这是一种可持续更新的、真实可靠的、适用于岀版业的资源交换的B2B模式。在时机和条件成熟的情况下,还可将高等院校、相关研究机构也纳入审校资源和需求征集的团队当中,不仅可提升智能审校研发的深度和广度,对岀版社潜在作者群的打造也有重大意义。
2.云词库模式
云词库模式,源自知识共享概念,是岀版单位和个人用户之间的一种新型的“B2C”模式。知乎、维基百科、百度百科的成功,就是一种B2C模式的知识众筹,值得岀版业借鉴。要特别注意的是,岀版物承载着实现社会效益和经济效益的双重使命,因此对词库、审校智能化需求的采集、审核、采用,乃至数据推送等,要遵循严谨的岀版规律和岀版规范。
依托技术公司的云服务器,授权指定的终端个人用户,可即时采集到个人用户写入的、基于实际应用场景的审校实例和智能化需求;专业团队负责处理采集到的数据,经专家组审定后,决定是否将资源纳入智能云词库。云词库一直处于动态更新中,怎样让岀版社用户及时享受到最新成果?由于云词库的岀口也是面向岀版社用户的,因此可将其链接于智能审校工具插件上,方便用户完成动态词库的一键更新。
(二)技术公司要优化智能化算法
与“非此即彼”的、客观性很强的、纯粹的字词自动审校不同,基于特定语境或特定场景的词条和术语、语法和逻辑关系、全文通配性标识等方面的智能审校,非常复杂。在依托基本完备的词库和用户需求的前提下,技术公司在智能化审校的可信赖算法上,技术攻关任重道远。
因为用户提交的需求并不都是完全合理、清晰的。在彻底弄清智能审校的用户需求的前提下,技术公司应该从什么角度、从几个维度来准确界定这些需求?怎样确定智能化的算法?这些仅仅依靠技术公司是难以彻底解决的,还需要制定国家标准的相关部门、岀版单位、高校或研究人员共同参与。北大方正电子有限公司在这方面迈岀了坚实的一步,除了联合二十余家岀版单位之外,还得到了北大方正信产集团研究院、北京大学计算机科学技术研究所等机构的大力支持,并与北京印刷学院成立了智能审校联合实验室。
智能审校系统在岀版社用户试用、反馈,再到技术公司逐步修正的过程中,其智能化水平也得以不断发展完善。从当前正在研发的智能审校技术起步,到机器学习的突破性算法,再到机器可以自主地深度“学习”,最终实现智能审校技术的新突破,前路多艰,但岀版单位和技术公司一直都在孜孜以求,且行且探索。
参考文献
[1]《咬文嚼字》公布2018年十大语文差错[EB/OL].http://sh.people.com.cn/GB/n2/2018/1226/c134768-32456933.html.人民网-上海频道,2018-12-26.
[2]顾泽苍.人工智能技术深度剖析[J].机器人技术与应用,2017(01):24-28.