数字化时代下中华书局如何造就“线上中华”？_中国（武汉）期刊交易博览会（刊博会）

　　编者按：3月14日-16日，由中国新闻出版研究院主办，中国新闻出版研究院产业发展咨询中心协办的2018全国新闻出版单位数字出版工作交流会在京召开。本届大会以“深化转型，创新引领”为主题，围绕新闻出版业转型升级的新机遇和新挑战，数字出版如何实现跨越式发展等多个议题展开探讨。作为一家拥有百年历史的书局，中华书局这些年做了什么？它又正在做什么？中华书局总编辑、古联数字传媒科技有限公司董事长顾青告诉了我们答案。

　　古籍焕新生，联手创未来。数字化时代下中华书局积极探索转型之道，开发了中华经典古籍库，力求实现再造“线上中华书局”的梦想。

　　探索古籍数字化，再造线上中华

　　中华书局的特色是传统文化的出版，核心竞争力是处理传统文化典籍。所以，中华书局数字化的战略是古籍整理的研究和出版。我们依托中华书局的品牌资源优势，开展广泛的数据合作，根据国家的规划打造中华传统文化大数据中心，建立国家级的古籍整理出版资源平台，让中华书局成为一个国内领先的优质传统文化、数字资源的内容提供商和知识服务商，再造一个线上中华。线下中华的主要盈利收入是靠纸书，线上中华建立起来以后，基本目标是线上收入或者是媒体融合的收入能够超过线下或者与之持平。

　　自2003年起，中华书局开始探索古籍数字化，当时新闻出版署科技司提供了一系列的项目支持，鼓励中华书局的工作。虽然业界已经有很多民营公司探索过古籍数字化，但是，就目前已经投入使用的产品来看，情况并不理想。所以，我们选择自己做。古籍数字化的复杂程度是极高的。比如，一般处理数字化的时候，汉字可以直接使用，不需要再开发。因为现在大字符集可以一直扩下去，能够处理七万多个汉字。这对于一般的数字化的汉字使用是足够的。而处理古籍时，要应对的是五千年来积累下来的各种形体和字，甚至有很多已经死掉的汉字。如果要确保这些字准确并且能够被检索，对于我们来说，要处理的就是十几万的汉字，甚至还不够。为了解决网上很多字没办法被检索和显示的问题，十几年来我们处理了一系列古籍数字化的基础数据、古籍数字化标准和一些具体的方法路径，在这个过程中也积累了一批人才。尽管没有产业化，但也可谓是卓有成效。

　　2014年6月真正开始产业化之前，中华书局的很多产品被盗版，可仍有许多用户使用。我们自认为不足，后来制成了中华经典古籍库（镜像版），这款数据库用户评价极好，我们也在一直增添数据。2015年10月，中华书局专门成立了一家以古籍数据化为主要业务的公司，与传统出版完全不同，其运作模式完全按照科技公司运行。

　　2015年11月，经典古籍库线上版发布，中华古籍整理出版资源平台项目正式启动。2016年4月，基于移动终端的微信版上线。2017年12月，经典古籍库第五期发布。4月23日古籍整理出版资源平台籍合网准备上线，目前还在筹备阶段。

　　这是中华书局古籍数字化的基本历程。中华经典古籍库是中华书局的主打产品，前三年公司的主要盈利都来自于这个产品，许多基本说法都基于古籍整理成果和规范的、海量的合法数据。由此可见中华经典古籍库的标准和工作难度。

　　保证内容质量，提供优质资源

　　目前，网络上的绝大多数古籍数据都是不够准确的。为何不够准确？我认为，如果用中华书局的图书引用古籍，那么可以说饮用的是纯净水或者是矿泉水。但如果是直接从网络上下载数据，那么饮用的就是自来水，甚至是别的水。这说明网络上存在许多不准确的文字，直接引用无法得到正确的结果。

　　所以，要想做到最好的质量，必须基于古籍整理的一系列规范和成果。从建国以来，中国的古籍整理事业取得了十分优异的成绩，其中最重要的成就是有一批优秀的人才在做古籍整理的基本工作，出版最好的书。一般来说，目前网络上的很多古籍和高校老师使用的古籍大型数据库，基本上不能直接使用。有一句话叫做“可供征引”，如果这些不规范的数据被引用进去，后果可能是博士论文通不过，中华书局不能出版这本书。然而当这些数据库都获得了合法的信息网络传播权时，海量的合法数据却是给我们自己无端套了一个枷锁。

　　中华经典古籍库是最高质量，可供征引的。中华书局曾和总局古籍办承诺，十三五的目标是达到三十亿字，五千种古籍。目前第五期是十亿字，一千五百种整理古籍，汇集中华书局等10家古籍出版社的优质资源。接下来，建国以来整理好的优秀、够质量的古籍将会被全部汇总进去。

　　中华古籍库这款产品中的功能是比较常规的，比如浏览、阅读等。其中有一个检索功能为：同名异称。比如，用一般的检索功能搜索“曹操”，可以搜索到与之相关的各类信息。但是许多用户并不知道曹操还有许多别名，其仅在《三国志》中就有38种别称。一般的检索功能无法实现搜索出38种有关“曹操”的资源。同样，历史上的各种人名、地名、官名、朝代名都有很多别称。如何一键就能把这些资源全部搜索出来？中华经典古籍库做到了。所以这款产品目前的销售量在持续增长，定价较高，公共图书馆，国内的主要大学馆和党政机关、新闻出版单位的使用度比较高。它可以服务大局，当中央的文件、领导人的讲话要进行准确的检索、引文时，都是使用中华书局的数据库。比如，中华书局的数据库在编辑《习近平治国理政》这本书时起到了不可替代的作用，因为其第一卷和第二卷都是用此数据库对所有的引文进行重新核正。此外，数据库在海外推出之后也得到了很高的评价。常青藤联校联合购买，德国、日本也都落地购买。牛津大学、剑桥大学里重要的汉学图书馆也在洽谈中。

　　然而，产品的最大痛点在于数据量增长太慢，要经过几年的时间才能增加到十亿次。一些竞争产品可以达到三十亿次、甚至五十亿次，但这些产品很多是直接通过互联网使用的。我们这款产品既要解决版权，同时也要保证质量，所以导致数量不大。有一句话我经常用来鼓励员工，“我们在上升，他们在下降，当数据量达到一定程度的时候，质量优势就充分体现了。”这就是目前经典古籍库的情况。

　　建立资源平台，开启古籍整理出版新时代

　　目前中华书局正在打造国家级的古籍整理出版资源平台——籍合网。一个是古籍整理工作平台，一个是古籍整理成果的发布平台。关于古籍整理这个行业和工作，可以这样说，目前市面上售卖的《论语》《孟子》《唐诗三百首》《史记》《汉书》等书，里面的文字、标点、分段、注释等相关内容都是经过整理的。如果是原生态的元素会很艰涩难懂，因为这中间存在的不仅是繁体字和简体字的问题，还有很多文本在几千年流传过程中出现的有关差错、丢失等问题，留下来的往往是面目全非，所以要恢复全貌就要进行古籍整理。

　　因为校刊、标点、注释，包括汇编等工作都是辑出来的，所以要进行古籍整理就必须具备一系列的技术。目前，中华书局正在准备将线下进行的古籍整理工作搬到线上，利用线上的优势提高效率和质量，这就是平台。我们会提供一系列的工具，包括自动引文的核对、自动校对系统、标点系统、繁简转化系统、跨库检索系统。目前网络上普遍使用的繁简转换系统存在许多错误，所以我们正在开发一道更加准确的繁简转换系统。然而要解决繁体字和简体字的标准版本也十分麻烦。因为目前繁体字还没有国家标准，只有简体字有。简体字中也大约只有一万字具有国家标准委员会发布的国家标准。而日本、韩国、港澳用的汉字，以及台湾用的正体字，和我们古籍用的完全不一样。此外，方正系统的字形也有很多不足，所以我们呼吁解决这个问题，国家也已经着手制作，只是目前还没有成型。现在，中华书局古联公司正在解决这个问题，我们新编了几个自定义，已经增加至三万多字，几年之后还会增加三万多字。

　　一方面，在平台上可以进行众包众筹，利用社会的力量进行项目发包，接受投稿。另一方面，可以在发布系统里审稿、加工、入库、发表、网络出版，然后自己进行纸质出版，这个系统本身很简单，但是用于古籍就会相对麻烦。

　　目前，我们在用国家出版基金的项目——中华大藏经续编做实验，规定2019年必须完成，可目前稿子的收集工作还没有完成。如果按照中华书局正常的工作流程，要60个编辑日夜加班操作3年才能完成。而用这个平台来做整理工作，充分发挥网络的技术、自动比对以及标点的功能，2019年国家出版基金就能保证完成。根据目前已有的样稿来看，质量也是有保障的，说明了这个平台确实有效率。

　　中华书局这种做法是产业升级，不是网络融合。但我更愿意称作是开创了古籍整理出版的3.0时代。1.0时代是从纸到纸，古代出版是在纸上进行加工，再出版纸书。此前的上千年一直到20世纪90年代都是如此。古籍整理2.0时代是电子到纸，出现了方正系统、电脑和微软，可以在word上进行相关整理，激光排版，最后制成纸书，也经过了十几年的时间。如今迎来了古籍整理的3.0时代，实现了线上整理和全媒体出版。这样就能够大幅度加快古籍整理的效率，提升文本的质量，古籍生产能力成倍的增加，同时也可以处理现当代文献。

　　重建产业链，构建传统文化大数据中心

　　古籍整理的3.0时代是一个重建产业链的过程，以前是作者整理完后交给出版社，出版社排版印制获利。而现在是作者到平台，平台发布直接获利，这就是重建产业链，它彻底改变了古籍整理出版的生态。

　　目前我们准备构建传统文化大数据中心，中华书局坚持以资源质量求胜，那么如何才能用资源质量向社会提供服务和帮助，解决痛点，获取自己的发展机会呢？我认为我们能做的最大的基础就是构建传统文化大数据中心，要求涵盖中国传世古籍的主要品种，基本满足学术界和全社会对优质传统古籍的需要，计划用三年时间完成150亿字，2万种古籍。这其中包括古籍、图像、普及读物以及用户资源、行为资源、行业资源等。其中重要的是必须引用的标准文献。输入各类数据，机器标引后自动入库，这对我们来说帮助特别大，可以形成可关联、可检索的一套数据库。具体实现时还有一些资源需要购买，可以自产、合作。

　　大数据可以很快形成各种专题的数据库集群。所以除了已有的古籍书目数据库、善本古籍数据库、文史工具书数据库以外，我们又开发了海外中医典籍数据库，目前在售。这其中包括近一百年来最准确的工具书内容解释，与古代文史相关的资料、人名库、事件库、地名库，以及大藏经数据库，续编等各类资源都汇集其中。

　　而且，我们有五百种书和一千篇文章，还可以根据数据库进行定制，比如石刻文献、西南联大数据库。西南联大的各种资料都会包括在内，最珍贵的有几百位西南联大老校友的口述采访。

　　同时，还可以进行知识服务，进行标引之后，数据就可以进行知识化、结构化。目前我们准备开发三种服务模式，这些服务模式的用户需求很大，比如对传统文化有需求的研究院所、各级党政机关、文化企业、社会团体等。去年我去保定大学讲课，旅游学院的老师问我，“雄安新区要建文化雄安，那从事旅游行业的怎么建设文化雄安？雄安新区这个区域里面有多少历史名人和文献古籍？中华书局能不能提供一个可能性？”结果，在我们的数据库里一搜索，雄安新区地域方志和传统文化典籍里记载的有关雄安新区的资料，几十分钟就可以提供几十万字的资源，再进行加工就是一套数据报告。

　　其服务形式可以有地域的传统文化资源的调研报告，专题研究报告，地域文献编撰的数据库、数据集，建设数据库提供的各种服务等。再比如湖南的湖湘文库，以及各地都在编大总集，这些都可以用到中华书局的数据库。诸如此类，知识服务对传统文化的需求最终也有可能形成最具前景的盈利模式。

　　总体来讲，目前书局关于传统文化、古籍这一部分，基于古籍，从古籍整理的角度出发，依托于中华书局对传统古籍的理解和品牌进行产业升级和资源再造。在大数据中心构建成功之后，我们希望能在传统文化这个独有的领域来进行媒体融合、产业升级以及知识服务等一系列的尝试。

　　中华传统文化大数据中心和籍合网的打造，将彻底改变当下古籍整理出版的生态、格局和运营方式，实现再造“线上中华书局”的梦想。

　　我们深知，这就是中华书局的未来，更是中华优秀传统文化和古籍整理出版的未来。

业内信息

数字化时代下中华书局如何造就“线上中华”？