摘 要:SGML的发明奠定了当今几乎所有数字出版内容加工技术标准的基础,其后的存储标准、格式标准、元数据等标准均由其衍生或以其为框架进行的构建。一方面,数字技术的丰富,使数字发布平台和媒体终端越来越多样化;另一方面,加工标准的统一和一致性增强了后期产品的网络流通。随着数字出版加工技术的发展,各类专业化标准不断涌现,标准体系更加完整。
关键词:数字出版 内容加工 标准
一、发展沿革
国际数字出版内容加工标准的创立和演进与数字技术发展密切相关。数字出版发展过程催生了不同技术特征的加工标准。从数字出版内容加工发展历史看,标准技术相互联系,形成了系统而严密的体系。如图1所示。

1. 萌芽期:20世纪60年代末-80年代末
该时期的特点是数字加工技术单一、应用领域狭窄,数字加工标准大部空白缺位。这个时期,出版领域的计算机技术应用刚刚起步,少数公司开始尝试将纸质书转变为数字图像进行内部存储。为存储方便,产生了相应的GML语言(General Markup Language,通用标记语言),该语言主要用于文档标记,由IBM公司发明并开始大规模应用。其特征是企业内部应用,采用企业私密性格式,因此在全行业推广上较为缓慢。这个技术特点是使用标记(Tag)来定义文本的格式,比如段、标题、清单、表等,通过一些处理可以转换成排版格式。
SGML(Standard for General Markup Language,标准通用标记语言)是GML的升级版,20世纪80年代美国出版协会(the Association of American Publishers,AAP)的电子手稿项目(the Electronic Manuscript Project)将其应用于电子书籍和期刊等编制的通用文档。这个标准很快就得到了世界多个国家认可,并最终成为了国际通用标准ISO 8879。SGML的发明奠定了当今几乎所有数字出版内容加工技术标准的基础,其后国际流行通用的存储标准、格式标准、元数据等标准均由其衍生或以其为框架进行构建。换言之,SGML奠定了当今数字加工技术发展基础乃至产业格局。
2. 发展期:20世纪90年代
该时期的特点是数字加工垂直专业化、数字出版内容加工链基本成型,标准布局基本完成。
首先,基于SGML开发了专业化存储技术XML(可扩展性标记语言),最终成为了W3C国际标准。该技术主要用于出版数据的存储和传输,基于文本格式可在网络条件下进行跨平台传输。解决了SGML过于复杂而HTML功能不全的问题,形成了真正适合数字出版产业的标准。
其次,各种专业化的应用于不同数字出版加工领域的文本标记语言纷纷出现,各种专业领域的数字出版加工得以实现,其中广泛为行业接受的通用化语言技术形成了国际标准。如表1所示。

最后,PDF(便携式文档格式)的出现统一了早期的版式,使编辑、排版、印刷版式一体化,简化了以往因印刷而重新排版的流程,极大降低了错误率,使数字印刷与数字出版之间形成了无缝衔接。
3. 成熟期:2000年后
该时期的特点是标准族群不断完善,标准分工更加精细化,标准内容更加开放,推动了更加丰富的阅读体验。
首先,随着数字出版加工技术的发展,各类专业化标准不断涌现,标准体系更加完整。计算机技术的发展使数字出版加工更加专业化,各垂直领域均出现了相匹配的国际标准。如专门应用于数字出版内容在线信息交换的ONIX,用于期刊标识的JATs等,用于音乐文档标识的MusicXML等。
其次,大部分企业私有标准转变为开放性标准,新兴标准内容更加开放,推动了数字出版内容加工行业的爆炸性增长。如PDF,由Adobe公司的私有格式于2008年开放公布后,成为了国际标准ISO 32000-1:2008,并在短期内迅速成为出版业界通用性数据加工标准。这些开放性国际标准的出现推动了数字出版加工技术的快速发展与成熟,使数字出版产业规模不断扩大。
最后,手机出版等全新阅读模式的兴起催生了ePUB等新型标准的诞生。ePUB的特点是文字内容可以根据阅读设备的特性,以最适于阅读的方式显示。开放性是其重要的技术特征,其元数据是XML,内容是XHTML,可免费获得其已发布的最新规范。
二、现状和特点
1. 标准产业带动力增强
从国际上看,技术专利化、专利标准化、标准产业化、产业市场化、市场国际化,已经成为技术通过标准形成市场转化的普遍模式。标准引导产业发展能力正在不断增强,特别是数字出版加工标准的发展,使数字出版产品加工成本不断降低,加工质量不断提高,加工速度不断提升,表现形式和阅读体验不断丰富,为产业发展带来了全新的空间,推动了产业规模迅速扩大。这一特征在数字出版加工标准发展的成熟期,即2000年之后表现得尤为明显。
如2009年,兰登书屋的电子书销售收入仅占其总销售收入的1%,而到了2012年,其电子书的销售收入已经占全球销售的20%,占北美市场的25%。同期,世界各大传统出版巨头,哈珀柯林斯出版社电子书销售占其全社图书总销售额的20%,西蒙舒斯特占23%,阿歇特美国公司数字销售占26%。2015年,亚马逊所销售的电子书销售册数已经是纸质图书的1.5倍之多。而由于电子书销售没有库存、物流以及退货损失的成本,其盈利能力在几家出版社的总利润中占比更高。根据美国出版商协会(AAP)公布的数据,电子书仅用了5年时间,就占据了全美图书销售22%的市场。可以说,数字出版加工标准的出现完全改变了数字出版产品的加工条件和加工质量,改善了读者的阅读体验,促成了当今电子书全球市场的大发展。
2. 标准化推动高质量低成本出版
国际上的数字出版加工质量标准普遍较高,主要体现在对字符精度要求高,标引、标签定义粒度较低,所有加工必须严格遵循数字内容格式标准要求。
譬如,汤姆森出版公司要求加工差错率不高于万分之零点五,有专人通过抽查章节进行准确率比对,根据抽样核对错误率。同时,电子图书推上市场后,还通过客户的反应对质量进行二次验证。客户抱怨的问题必须找出原因并提出加工制作的质量解决方案,这些方案最终会形成内部全新的数字出版加工企业标准。
通用标准和高质量要求大幅降低了电子图书二次出版成本。同一本图书内容需要增补并再版时,可直接在成品的XML上进行修改后,通过Render方式转换成PDF后直接出版,减少了因数字作品再版时的二次加工成本。
3. 新技术推高标准化加工水平
计算机技术的持续发展,不断推出传统出版内容的数字化加工全新技术解决方案,也推动了数字出版内容加工标准水平的自身提高。如,一个推动数字产业链融合的docx标准正在讨论中。该标准主要是将作者提供的word文本直接结构化,格式化的数据将实现同一作品的直接跨平台发布,而避免因格式转换造成的文本信息差错和成本浪费。随着这项标准的成熟,数字内容生产、编辑、加工和分发今后将统一为一体,各数字出版环节之间衔接也将更为合理。
一部分原有的通用数字加工标准在计算机技术的提升下,也将逐步实现标准迭代或逐步退出通用标准池。如,HTML5(万维网通用描述语言HTML技术标准的第五代修订版本)在国际上已被视为ePUB3的有效替代选项之一。HTML5拥有更短的启动时间、更快的联网速度,它可以为跨平台的内容(涵盖但不限于数字图书、数字期刊、数字报纸、富媒体数据库等)提供通用终端显示方案,而且作为一种技术语言和表现容器,它不仅能够表现文字、图片,更能很好地表现动画、视频、音频等富媒体交互效果。HTML5格式的电子书可以使用PC、MAC、安卓和iOS上任何一种浏览器进行阅读,而不需要采用专门的数字阅读应用软件。目前,亚马逊与Kobo已经借助各自的云阅读器完全支持HTML5。
4. 标准加工工具化特征显著
为提高标准的行业应用率和应用水平,各类符合标准规定的专有数字内容加工工具被大量研发出来,这些工具的特点是集成化程度高,功能全面。采用这些工具进行的数字化内容加工,将完全符合标准要求。如法兰克福书展期间发布的一款软件成为强大数字内容产品制作工具的代表,它提供简单、直观的拖拽操作方式,可以完成诸如添加动画、互动以及多种元素效果,并可实现诸如ePUB3等目前主流格式标准的制作和发布工作。北京欣博友数据科技有限公司自主研发的数字加工生产系统软件,实现了电子图书和科技期刊内容标准化加工的高度集成。从原数据的导入,到双OCR引擎的自动识别和比对,再到图像处理、内容标引、整合输出等工序全在一个集成化的环境中完成,可以生产出高质量的符合JATs、DocBook等特定数字出版领域标准的电子图书和数字期刊。
三、发展趋势分析
1. 一次加工多重复用渐成主流
数字技术的丰富,使数字发布平台和媒体终端越来越多样化,但不同平台与终端往往支持的阅读格式并不相同,导致内容提供商在进行内容制作和加工环节时,需做有针对性的多种内容格式开发,因重复加工而造成资源浪费和成本增加。
因此,国际上的数字出版内容加工领域正逐步向通用、可以实现转换的标准方向发展。即进行一次性内容制作加工,实现数字内容的多渠道多用途使用。如国际上普遍认同以XML为核心的数字加工转换模式,根据渠道及终端特性,通过对数字内容进行细颗粒度的精细化加工,辅以相应的格式转换、使得数据内容可以在各种数字媒体和数字平台如电子书阅读器、PC、平板电脑、手机、国际期刊发布平台上进行立体发布和呈现。如图2所示。

2. 流式版式融合化趋势加强
流式特点是指对文档包含的文字、数字、表格和图形图像进行顺序的版排方式处理,版式不固定,可以根据显示页宽自动进行排版。版式特点是版面是固定的,阅读过程中始终以原始编辑版式显示,缩放后不会自动根据页宽进行重新排版。因此,不同的呈现终端适合不同的呈现格式。随着阅读方式更加数字化,阅读载体终端通常是带屏幕显示的电子仪器,如PC、PDA、笔记本电脑、平板电脑、电视、手机、电子阅读器等,但终端属性不同,适合于不同属性的格式标准。如以正文为主的,各元素的相对位置不需要精确保证的,更适合于流式,而图文并茂的出版物更适合于版式。因为一些数字出版内容已经制作成了流式或版式的产品,为使读者获取便利,越来越多的终端开始同时支持流式或版式两种格式。
3. 推动大数据集中化
加工标准的统一和一致性增强了后期产品的网络流通,以同一加工标准为基础建构的不同平台间形成的集中化、统一的大数据库。统一输出标准格式,保证了读者在不同平台间阅读的统一体验,平台间内容发布也无须二次加工,可以形成不同平台数据库的数据联通共享,内容跨平台的直接传输和分发,推动出版大数据实现互联网时代下的真正互联互通。
如西方一些国家普遍通过JATs建立了期刊平台。巴西的SciELO(科学在线图书馆)、牛津大学出版社(OUP)、Taylor & Francis集团、韩国KISTI平台、日本J-STAGE平台及美国的ALA、NLM、APS、APA、EBSCO等,这些平台期刊的底层直接搭建于JATs标准。而施普林格(Springer)公司平台、爱思唯尔(Elsiver)出版平台采用的也是近似该标准的XML编码。读者在不同平台间进行信息查询更加容易便利,信息的联通也避免了抄袭现象的发生。
(作者单位:中国新闻出版研究院 北京欣博友数据科技有限公司)
* 本文系2015年度国家科技支撑计划课题“学习资源数字出版和电子书包标准研究与检测工具开发”(课题号:2015BAH33F03)研究成果。