基于对业内数字出版产品的分析,经过近3年的筹备,上海古籍出版社即将在今年年底推出数据库产品——“上海府县旧志数据库”,这也是上海古籍出版社数字出版大胆创新的重要举措。上海古籍出版社数字编辑室主任查明昊在接受《中国新闻出版广电报》记者采访时表示,上海古籍出版社作为一家有着60余年历史的老牌古籍出版社,近几年来积极深挖自身潜力,不断探索着数字化出版的发展路径。
精耕细作 小而不凡
上海古籍出版社的数字化主要分为两个方面,一方面是以电子书形式与亚马逊、掌阅、知网等机构进行合作,目前已有近400种电子书在线销售。另一方面就是从2015年开始筹备建设的“上海府县旧志数据库”。
查明昊介绍,“上海府县旧志数据库”是在上海古籍出版社出版的纸质版标点整理本“上海府县旧志丛书”的基础上进行开发,收集了现存全部的上海行政区域内的府县旧志,可图文对照、全文检索,主要特点是“小而全”,不仅内容翔实全面,并且呈现形式多样:将XML(可扩展标记语言)流式文档、标点整理排印本文档、原始刻本文档有机结合起来。截至目前,“上海府县旧志数据库”已经基本完成建设,进入了完善调试阶段。
在形式上,“上海府县旧志数据库”没有选择现在数据库建设“大而全”的形式,而是独辟蹊径选择了“小而精”的形式,选择这种形式的初衷是什么呢?查明昊坦言,在专业古籍数据库领域,已经有爱如生等民营数字公司的“中国基本古籍库”,走的是数据内容量大、更新速度快的形式;还有中华书局基于自身积累的精品内容资源开发的“中华经典古籍库”,是内容量大而且内容也较为精良。
面对数据库市场上,爱如生与中华书局的数据库都确立了相当的市场优势地位的情况下,对于上海古籍出版社这样进入数字出版领域较迟的传统出版单位而言,只能在“特”上做文章,即立足自身在某个特色资源的优势,打造小、全、特、精的中小型数据库。
“既然短时间内我们不能把数据量做大,我们就想,可以在某个细分的小领域做大——即尽可能穷尽这一领域内的相关文献,同时充分利用标点整理文档与影印文档的各自优势,在相对可控的开发内,以相对可以承受的投入,形成一个有一定的市场竞争力、鲜明特色、可持续开发的数据库。这样就形成了我们现在的‘上海府县旧志数据库’。”查明昊说。
克服难点 互联共通
在查明昊看来,做专业古籍数据库的优势之处是:营利模式较为成熟,销售客户也较为明确,但不足之处在于市场需求有限,并且各个数据库之间内容交叉度较高,同时想要建立起一个庞大的“数字化古籍仓库”也绝非易事。在上海古籍出版社建设“上海府县旧志数据库”时,就碰到了诸多困难。
古籍数据的加工整理就是一项劳动密集的工作。“要想在短时间内积累到相当数量的、质量可靠的数据资源,一来受制于目前古籍数字加工的产能不足,难以找到可靠的合作企业、人员;二来受制于古籍数字加工的投入压力,目前古籍文字加工录入的成本不断攀升,靠我社的自筹资金,每年能承受的投入相当有限。但是‘上海府县旧志数据库’取得了上海市新闻出版专项资金的资助,部分缓解了前期开发投入的压力。”查明昊说。
谈及目前传统文化数字出版最大瓶颈,查明昊直言是内容的生产。首先,古籍文本中相当大的比例为稿本、抄本文本,以及不够清晰的底本,现有的OCR(光学字符识别)识别技术在这一块还需要有较大程度的技术提升;其次,古籍中存在着大量的异体字与错字,比如,多或少笔划、字体结构错误、声旁或形旁错误等,如何区分是异体字还是错字等,目前靠软件还没办法解决;最后是古籍的标点、断句,以目前开发的标点软件来看,离运用还存在相当的距离。
对于古籍数字化出版的这些难点、痛点,都需要投入大量的、有相当专业水准的人员,但是由于工作性质的枯燥、报酬有限,就难以吸收到大量高素质的人才,用人成本也在不断攀升,更进一步限制了产能。
如何解决这个瓶颈,查明昊最后提出了他的建议,在他看来,可以尝试众筹的模式:利用互联网的“互联共通”模式,将要加工的数据,分割成“小包”,通过互联网发布相关信息,由有兴趣、并通过相关技能考核的人员领取相关“小包”后,各自加工,然后进行汇总核对,就可以打破时间、空间的界限,有效提升内容生产效率。