业内信息

基于JATS标准的医学期刊电子资源格式处理与转化

2018-09-28 来源:《中国科技期刊研究》
  【关键词】资源存储;JATS标准;结构化文档;格式处理与转化工具
 
  【作 者】康宏宇、李姣、侯震、侯丽:中国医学科学院医学信息研究所
 
  【摘 要】[目的]  研究科技期刊电子文档存储与转化的相关机制,为医学类科技期刊的格式处理与自动转化提供工具支撑,以提升国内期刊的国际影响力。[方法]  以Journal Archiving Tag Suite(JATS)数据标准为例,研究国外医学期刊所遵循的存档格式,分析国内期刊的资源存档现状。[结果]  基于JATS数据标准,制定科技期刊资源存储的格式处理与转化流程,设计并开发适用于医学科技期刊的格式处理与转化系统,辅助科技期刊进行电子资源的规范化存储,并实现非结构化文档向结构化文档的自动转化。[结论]  规范的科技期刊资源存储格式对期刊影响力的提升至关重要,格式处理与转化流程的制定与工具开发,能为期刊资源管理与电子文档的处理与转化提供依据和支撑。
 
  随着信息技术和数字技术的迅猛发展,读者的阅读行为从纸质阅读逐渐转至计算机(Personal Computer,PC)端和移动端阅读。出版资源也以PDF、超级文本标记语言(Hyper Text Markup Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)、图片、视频等形式存储,并将相应的内容呈现给读者。统一的期刊存储标准将会促进期刊资源整合,提高数据存储质量,方便数据管理;同时可使期刊资源与国际接轨,提升期刊自身的国际影响力。截至2017年年底,Medline收录了全球范围内5200多种期刊、2400万篇文章,涉及40多种语言。其中,2016年共新增86.9万多篇生物医学领域的优秀文章。目前,在Medline收录的期刊中,中国期刊有93种,仅占所有收录期刊的1.8%。中国科技期刊出版社/编辑部呈现小而散的特点,期刊之间的存储格式缺乏统一的标准,导致国内期刊在申请国际知名检索时遇到困难,无法实现与国内外同行的深度交流。因此,我国出版社和相关科研人员在加强医学科学研究、撰写高质量研究论文的同时,也应注重资源积累过程中的资源存储标准构建,规范电子资源的存储流程及方式,使期刊的资源存储与管理方式与国际接轨,让更多生物医学期刊进入包括Medline检索和PubMedCentral(PMC)检索在内的国际知名索引中。
 
  国际上较为通用的标准是由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)创建的Journal Archiving Tag Suite(JATS)数据标准。该标准已成熟地运用于Medline和PMC检索中,用于存储和管理科技期刊的电子资源。
 
  本研究以医学类期刊的资源存储为切入点,以JATS数据标准为例,分析国外医学期刊的电子资源存档格式,调研国内医学期刊资源的存储格式,总结资源存储现状及存在的问题,制定面向医学类科技期刊资源存储的格式处理与转化流程,并开展相关实践,以提升国内相关期刊的影响力,让更多读者了解并能够迅速检索到中国的高质量期刊。
 
  1  国外期刊资源存储标准——以JATS数据
 
  标准为例JATS数据标准被应用于Medline检索的文章摘要信息和PMC检索的全文信息中,推动了期刊电子资源规范化存储与管理的进程。
 
  1.1  JATS数据标准概况
 
  JATS(http://jats.nlm.nih.gov/)数据标准是PMC检索中较为通用的资源存档和交换标准,其定义了一系列描述期刊、文章特征的元素及属性,并对文章中的图片、表格、术语等有特定的说明。标签集共包含了250余个元素和130余个元素属性。
 
  (1)前置部分(?front?):含有期刊和论文的元数据内容,包括期刊名称、出版社、论文题目、作者、作者机构、卷、期等信息。
 
  (2)主体部分(?body?):用于存储文章正文的文字和图表等信息,主要以章节(?sec?)的形式存储正文信息,如元数据(?sec-meta?)、标题、正文的文字内容、数学公式、图表信息等。章节部分包含26个元素,这些元素根据每篇文章的具体情况可存在或缺失。这26个元素可分为以下几大类:
 
  ①文字内容,包括段落(?p?)、声明(?statement?)等;
 
  ②数学公式,包括公式(?disp-formula?)、公式组(?disp-formula-group?)等;
 
  ③表格,包括表格排列(?array?)、列表(?list?)、表格(?table-wrap?)等;
 
  ④图片,包括图(?fig?)、图组(?fig-group?)、文本框(?boxed-text?)等;
 
  ⑤其他辅助内容,包括多媒体(?media?)、联系地址(?address?)等。
 
  (3)后置部分(?back?):存储致谢、参考文献编号、引用格式、相关链接以及文章所涉及到的术语表等辅助信息。
 
  (4)浮动部分(?float?):文章主体和后置部分引用的图、表及对文章的评论等。
 
  (5)评论(?response?)或次级论文(?sub-article?):编辑的总结、读者反馈、作者对同行评议内容的反馈、文章的次级论文等。
 
  1.2  JATS数据标准在医学期刊检索中的应用
 
  (1)Medline检索。Medline数据库创建于1879年,是由美国国立医学图书馆(National Library of Medicine,NLM)创建的综合性生物医学文献书目数据库,也是目前国际范围内使用最为广泛和权威的生物医学文献数据库。Medline重点收录对卫生和生物医药具有卓越贡献的研究性期刊、临床和实践性期刊、评论性期刊以及相关领域的综合性刊物。Medline遴选过程中重点关注期刊的学术水平和质量,同时要求被收录的期刊提供符合基于JATS标准的XML格式的文章摘要信息。期刊可以向NLM提供自己网站上所有文章的PDF全文链接,让读者在Medline检索时能够通过索引链接到全文。
 
  (2)PMC检索。PMC是由美国国立卫生研究院(National Institutes of Health,NIH)和NLM创建并维护的生物医学全文文献资源,在国际生物医学领域开放获取和知识共享方面享有较高的学术声誉。到目前为止,PMC检索共收录6900余种期刊,460万篇全文文献。
 
  期刊文章的内容和质量以及文章存储格式是进入PMC检索的2个关键点。文章内容应在原创研究论文、临床病例报告、数据分析文章和临床或外科手术描述的范围内。同时还会考量期刊编辑的独立性和读者多样性。之后,PMC会对期刊的资源存储格式进行严格审查。期刊必须以符合文档类型定义(DocumentTypeDefinition,DTD)约束方式的XML/标准通用标记语言(Standard Generalized Markup Language,SGML)格式向PMC提供文章的全文,PMC不接受HTML格式的文章。
 
  资源存储格式的审查在整个PMC检索收录的申请流程中尤为重要。NLM建议所提交的数据要符合JATS数据标准的XML格式,同时也可以接受符合期刊出版领域广泛使用的其他全文文献DTD约束方式的XML文档。XML文档中应包含文章的基本元数据信息(如ISSN、期刊出版商或杂志社、卷号、分页/文章序号、发行日期等)、文章的正文信息(如段落、文字、图表、数学公式等)以及参考文献和其他辅助信息。在提交过程中,每篇文章的数据提交包必须完整,包含XML/SGML、PDF、高分辨率的数字图像文件、电子表格、视频文件等涉及文章出版的所有文件。如果审查过程中发现错误,PMC会反馈给出版商或杂志社,让其进行修改。但如果再次提交之后仍有错误,PMC则会拒绝该期刊的申请。
 
  1.3  JATS数据标准的其他应用场景
 
  JATS数据标准除了被应用于NLM的电子资源存储与管理,也为众多出版社、研究机构、公司等提供了资源管理的基础条件,这些机构已在JATS标准的基础上开展了相关研究。
 
  Penev等对通用的JATSDTD进行扩展,开发了TaxPub工具,用于生物系统学领域的期刊资源标记和出版。Nakanishi等设计了一种自动转换流程,能够将日文期刊转换为符合JATS数据标准的XML文档,并对文中的表格和数字做特殊处理,以完成表格的准确定位和内容转换。Gebhard等则更加关注文章中的数学公式,他们尝试将Word文本文档中的数学公式直接转换成符合JATS数据标准的XML文档。INERA公司也开发了一款名为eXtylesNLM的工具,试图完成Word文档向符合JATS数据标准的文档的转换。
 
  2  国内医学期刊资源存储现状
 
  随着数字出版技术的发展,结构化文档在电子期刊存档过程中体现出更多的优势。由于国内医学类期刊众多且出版机构分散,缺乏统一的资源存档格式及标准,格式转换工作较难开展。
 
  2.1  结构化文档在国内期刊中的应用
 
  随着数字出版行业的发展,国内科技期刊的出版已由传统的纸质出版逐渐向电子存档与出版转变。期刊的电子存档和出版可以分为3个阶段,即PDF全文展现阶段、HTML阶段和XML阶段。目前,大多数期刊都可以先经过专业的纸质排版,再通过软件或专业操作人员转成一般的非结构化或半结构化的电子版,如Word/PDF或HTML文档。其中,HTML为一种半结构化文档,极大地提升了读者的阅读体验。而XML结构化文档的出现,可以实现资源的规范化存储与管理,节省期刊出版及资源管理的物力和人力。相较于HTML,XML文档的另一优势在于这种存储技术更注重元素和属性的具体内容,更多地用于描述数据,而不提供数据的显示方法,更加保证了内容的可复用性和存储稳定性。上述3种资源出版与存储格式对比情况如表1所示。
 
表1  3种资源出版与存储格式的对比
 
项目说明 PDF HTML XML
数据结构 无结构 半结构化 数据结构化良好
展示方式 借助插件展示 依赖于CSS文件 展示性良好
数据解析 只限于文本、图片和表格 半结构化文本、图片、表格、音视频、链接 结构化文本、图片、表格、音视频、链接
数据复用性 依赖插件,难以复用 噪音数据多,难以复用 数据复用性强
数据压缩比 数据压缩比低,不易存储 数据压缩比中等 数据压缩比高,便于存储
视频、音频等文件的存储 无法存储 可存储地址,由服务器调用 可直接存储或服务器调用
 
  为了推动期刊电子资源存储的规范与统一,已有少数研究团体开始使用结构化文档实现期刊电子资源的存储与出版,并构建与自身期刊特点相符的资源存储标准;但大部分出版社仍处于使用结构化文档的探究阶段。2014年10月,中华医学会杂志社发布了CMAJATS0.1版,它在继承NLMDTD大部分元素的基础上,对一些元素进行了重构。目前CMAJATS被应用于中华医学会杂志社旗下的141种期刊和10种非中华医学会期刊,已完成超过9.6万篇论文的全文结构化数据处理。
 
  2.2  国内医学期刊资源存储差异
 
  由于各期刊的排版样式和网站呈现方式不同,其文档的出版格式和存储格式也不尽相同,缺乏统一的资源管理标准,最终导致资源之间的格式转换无法快速实现,影响了国内医学类期刊申请Medline检索或PMC检索的进程。国内医学期刊之间资源存储差异如表2所示。
 
表2  国内医学期刊资源存储差异对比
 
类别 样例1 样例2
作者姓名 Chen Wanqing Wanqing Chen
作者机构 中国医学科学院医学信息研究所 医科院信息所
期刊信息 中华医学杂志,2013,126(14):2705-2707 Received:2 October 2017;Accepted:19
January 2018;Published:24 January 2018
参考文献 First described late in the 19th century by Neuber[1] the prevention of cancer invasion and metastasis.2,3
图表、视频等附件 图片1.JPG 像素:400×600 图片2.JPEG 像素:320×480
 
  (1)作者姓名。不同期刊作者姓和名的前后位置不同,如《中华医学杂志》等期刊将“陈万青”表示为Chen Wan qing;而Chinese Journal of Cancer Research等期刊则将其表示为Wan qing Chen。
 
  (2)作者机构。有些期刊在数据存储过程中使用作者机构的全称,如中国医学科学院医学信息研究所;有些期刊则采用机构简称,如医科院信息所。
 
  (3)期刊信息。有些期刊在存储论文的收录情况时直接采用参考文献格式,如中华医学杂志,2013,126(14):2705-2707;而有些期刊则将收录时间、卷、期等信息分类别存储,如Received:2October2017;Accepted:19January2018;Published:24January2018。
 
  (4)参考文献。参考文献在正文中的引用方式不同,如AIMSCellandTissueEngineering等期刊采用内容右上角数字加方括号方式引用,如First described late in the 19th century by Neuber,而《中华医学杂志英文版》等期刊则直接采用右上角数字的方式引用,如the prevention of cancer invasion and metastasis.2,3。
 
  (5)图表、视频等附件。附件的差异表现在两个方面:一方面是存储格式的要求,如文件类型、像素、大小等;另一方面是附件在文中的引用方式,具体形式与参考文献在文中的引用差异相似。
 
  3  医学类期刊资源存储的格式处理与转化
 
  通过上述分析可以看出:一方面,XML结构化文档在电子期刊存档和出版过程中具有数据结构化良好、展示性较强、复用性强、压缩比高等优势,而国内仅有少数出版社能够以结构化文档对资源进行全面的存储与管理;另一方面,期刊或出版社资源存储没有统一的标准,存储格式之间差异较大,这将影响国内科技期刊的资源规范化管理和期刊申请进入国际有影响力的检索数据库的进度。所以,构建规范化的期刊电子资源存储标准,设计并开发格式转换工具是非常必要的。
 
  为了加大科技期刊的资源管理力度,提升期刊影响力,本研究在分析国内医学期刊资源存储现状的基础上,结合JATS数据标准,设计了基于JATS数据标准的格式处理与转换流程,并据此开发系统,实现异构资源存储文档向规范化文档的转化。系统中各模块的运作流程如图1所示。
 

图1  资源格式处理与转化工作流程
 
  该系统分为4个工作模块,分别是信息采集模块、数据存储模块、信息抽取和转化模块及验证模块。根据出版社提供的数据格式,借助Dom4j/XPath、Jsoup、Apachepoi等工具对文件进行解析。如果出版社已将相关信息存储到结构化数据库中,则直接进行数据抽取。根据PMC检索中通用的JATS数据标准,对采集到的信息进行规范化处理,并存储到本地数据库中。规范化处理的信息包括期刊信息(期刊名称、ISSN、版权声明等)、论文基本信息(论文标题、作者、作者单位、联系方式、出版信息等)、论文主体(摘要、关键词、段落)、参考文献及其他信息(参考文献、致谢、附录等)。对于用户提交的论文图片、表格等内容,则直接存储到服务器中。经过规范化处理的信息,按NLMDTD文件要求对内容进行抽取,并完成自动填充,生成格式统一的XML文件。最后,对XML文件是否符合要求进行验证,若通过验证,则可以按照PMC的要求继续完成XML文件和其他材料的提交;若没有通过验证,系统会反馈未通过的原因,用户根据具体原因,可返回信息采集和规范化处理的相应步骤并进行人工修改。
 
  在运用资源格式处理与转化系统方面,AMIS出版社的AMIS Public Health期刊已完成资源的格式转化,如图2和图3所示,并顺利通过了PMC的格式审查。
 

图2  系统对AMISPublicHealth进行信息采集及格式转换
 

图3  系统生成的符合JATS标准的XML文档
 
  4  总结与展望
 
  学术质量和资源存储格式是Medline检索和PMC检索申请过程中两个关键因素。学术质量代表着期刊内容的科学性、创新性、实用性和时效性;而资源存储格式的规范与否则反映了期刊资源管理的合理性和有效性,同时也是向Medline和PMC提交资源的必备因素。医学类科技期刊应在不断提升自身学术质量的前提下,管理好期刊资源,注重资源格式的规范。
 
  JATS数据标准经过了NLM大量文献存储的验证,是一种成熟的电子期刊资源存储与管理的规范化标准。围绕JATS数据标准开展标准制定及格式转换研究,能够规范国内医学电子期刊的资源存储、管理与信息转换,加快国内医学期刊进入国际权威检索数据库的步伐。本研究在JATS数据标准的基础上开发了资源格式处理与转化系统,以探究电子科技期刊资源规范化存储方法和流程。该资源格式处理与转化系统能够帮助期刊编辑人员快速实现非结构化文本向符合JATS数据标准的XML文档的转化,提高文档转化与生成效率,确保文档格式准确性,降低人工操作的运作成本。
 
  为了继续推动科技期刊资源格式转化的相关工作,笔者将继续深入研究NLMDTD结构及JATS标准,提高转化系统的准确率,使其能够识别各种类型以及结构复杂的科技论文;同时也将在JATS数据标准基础上,研究适用于中文医学期刊的资源存储标准,推动中文科技期刊的本地化建设,规范期刊存储与管理流程,提升国内期刊的国际影响力。
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号