【摘 要】现阶段新闻出版行业一般都会应用采集标准结构化信息的方式,以此来说标准文献当中的标引工作进行实际的标引,如果没有根据标准的实际内容完成标引工作,可能会造成用户没有办法在查询过程中很快地定位到标准内容,基于此,标准碎片化标引方案被新闻出版行业提了出来。按照标准的特点,对标准的结构还有内容进行存储,从而把新闻出版行业的词库建立起来,并通过统计加权算法做好分词工作,对词频、词性、词长,还有位置进行综合的考虑。在实验当中论证,这一方案能够帮助新闻出版行业标准实现碎片化的标引,从而使检索的效率还有质量得到进一步的提高。
【关键词】新闻出版行业;标准;碎片化;标引
一、前言
随着我国社会经济的不断发展,科技也取得了空前的进步,在社会生活当中,标准的地位正在逐渐升高,其所发挥出来的作用也愈发重要。从我国新闻出版行业的角度上看,标准对全部新闻出版行业进行了详细的规定,并且将每一个方面所应该依据的标准统一规范了出来,其重要性可以说是无可比拟的。不过现阶段对于标准文献的标引工作,各个新闻出版行业落实的还不到位,基本上都只是对标准的基本信息进行了采集,而没有标引清楚标准的实际内容,这对于用户的查询还有定位来说还不是非常便捷的,阻碍了标准的进一步推广和发展。
二、标准结构分析
标准可以说是自己独立就可以构成一个体系的,属于特种文献当中的一种,存在于新闻出版行业,当单独进行出版和发行的时候,通常都有属于各自比较有特点的风格还有体制,并且还要严格统一好标准编排的格式还有叙述方法。根据层次的不同,可以把标准划分成部分、章、条、段、列项,还有附录。
因为标准结构具有严谨性,并且标准编号具有统一性,按照结构的不同,可以实现标准文献的碎片化,同时,把各个章还有各个条的内容都标引起来,使得其有一定的可行性。
三、新闻出版行业标准碎片化标引的研究
(一)标准结构化存储研究
标准的机构有一定的特殊性,并且在整个标准当中最核心的部分就是技术内容,本文主要对标准的六个主要部分进行整理,即封面、目次、前言、引言、正文以及附录,以此来实现标准结构化存储。目前,常见的标准主要是以树形结构呈现出来的,属于一种非常重要的非线性数据结构,其中各个数据元素之间主要呈现出一种“一对多”的关系,而树的深度则体现出了树中各个结点层次的最大值。因此,一定要把标准拆分成很多不同的碎片,并把一些实体模型抽象出来,从而转换出不只一份数据库表来存储标准内容。
首先是标准的封面,在标准的封面当中对标准的基本信息进行了标示,特别是对标准的编号、名称,还有英文译名、ICS、CCS、发布日期和部门等都做了详细的标示。
其次是标准的正文,若标准当中的内容出现了对其他标准或是文件进行引用的部分,那么就应该单独设立出来一个章,把这些文件清单放进去,并且重新命名这个章的标题,通常是“规范性引用文件”,通过这样的方式能够防止由于对文件当中的内容进行了重复的引用,从而导致标准的篇幅过于庞大,同时,也能够防止标准与标准之间存在不协调的问题。其实通过对比标准还有其他标准,抑或是文件之间的关系,能够看出规范性引用文件对于标准的研究有着一定的帮助,因此,在研究过程中最好能够将这部分内容以抽象的方法,构成一个实体模型,从而在数据库当中把各个表存储进去。
在标准条文当中,出现次数最多,并且使用次数最多的一定是“术语和定义”,这部分内容可以使标准的内容被较好地反映出来,因此,单独并且深入地对“术语和定义”这一部分内容进行研究是非常有必要,同时,也是非常关键的。
最后,在标准当中虽然封面还有正文部分是占据核心地位的,但是也不能忽视目次、前言、引言,还有附录这些内容,这些部分包含的内容同标准有着一对一的关系,能够共同构成一个抽象的实体在同一个数据库表当中存储起来。
(二)标准碎片化标引技术研究
1.中文分词技术
在中文信息处理过程中,关键是要做好中文分词,而在分析中文文献的文本时,也常常会应用到分词技术,以此影响整个系统的检索精度还有检索效率。目前常用的中文分词方法大概有三种,其中一种是根据词典进行分词,这种方法实现起来是较为简单的,不过精准度不是很理想;第二种是根据规则进行分词,这种分词方法的精准度相对比较高,不过对规则进行维护不是很容易;第三种是根据统计进行分词,这种方法不需要对字典进行切分,只需要按照词频来对没有经过登录的词汇进行统计与识别,不过基于这种方法的实现效率还是有一些低的。
2.停用词表和行业词库建设
停用词表主要指的是一些集合的字、词,还有符号等,这些内容都是没有实际意义的,在对中文信息进行处理的时候,把这些词删除能够使噪声减小,使检索过程中的查准率以及查全率得到提高。
在新闻出版行业标准当中,包含了诸多专业术语、主题词,还有数据元,这些词汇普遍都是从新闻出版行业标准当中得到的,常见的有《新闻出版业务主题词表》《出版术语》以及《新闻出版业务基础数据元》等,在这些标准当中分别对涉及新闻出版行业的各个业务领域所能关联到的主题词进行了规定,也对出版行业的术语还有定义进行了规定,从而确保在生产还有教学过程中,专业概念能够得到最为规范的使用,规范国内外学术和技术的交流。
3.关键词提取技术
首先,对于新闻出版行业标准来说,在标准文献当中影响关键词提取最为重要的因素就是词的位置,一个词所处的位置不同,其重要性也会存在一定的差异,因为标准有着非常严格的格式和规范,在运用词汇时一定要简单明了,并且能够标准的主题充分反映出来,特别要说明的是,最能反映标准主题的关键词通常出现在标准的章标题关键词当中。
其次,一般会把中文的词语划分成两个大类,一类是实词,一类是虚词。顾名思义,实词主要就是指那些在文章当中有着实际含义的词,能够将文本内容充分体现出来,常见的是名词还有动词等;而虚词则主要代表那些在文章当中没有实际含义,只是充当句子当中的一部分,扮演着语法作用的词,比如说介词、连词,还有副词等。在选择关键词时,如果选择了虚词,那么标引的质量将会直接受到影响,并且影响是非常巨大的,会导致标引质量大幅度降低。因此,在处理文本的过程中,往往会忽视虚词,而重视实词的应用。
最后,词长特征对于提取关键词也有重要影响。通常情况下,一个词的长度越长,其所能表现出来的内容就更为具体;而反之,一个词的长度越短,其所能表现出来的内容也就更为粗略。在对新闻出版行业的标准进行研究的过程中可以总结出来,经常会有非常多的专业性词汇出现在标准当中,并且这些词汇的词长普遍都很长,所以从标准的角度上看,对词长的特征进行思考和考量也是非常关键的。
四、新闻出版行业标准碎片化标引的实现
(一)标准结构化
本文的试验数据主要来源于新闻出版行业的标准,这一标准是在2001年出版发行的,名字叫作《图书书名页》。对这一文本进行解释和分析,并且将标准当中的基本信息分别识别出来,连同文本内容一同插入到数据库当中,这样就可以将实验样本的数据得出来。
(二)标引标准
第一步应该对标准文献进行解释和分析,并将其存储到数据库当中,再通过分词、过滤、计算权重、获取候选标引词,还有人工修正之后,从而获取最终的标引词。
1.标引实验
在分词之后,应该过渡到过滤还有权重计算阶段,根据权重的大小进行排序,可以得到指定数量的候选标引词,再通过人工修正,能够获取到最终的标引词。随后需要非常多的实验样本数据作为支撑,通过标准标引办法能够把代表标准的中心思想还有内容的标引词准确的定位出来,使得用户能够在查找标引词的时候就获取到自己想要查找的保准内容。表1所示是部分实验结果。
表1 Standards部分实验结果
ID | standardID | chinaname | English | terms |
1 | GB/T12450-2001 | 图书书名页 | Title leaves of books | 图书书名页标准出版 |
2.词库实验
本文主要是基于新闻出版行业的词库将分词工作落实下去的,系统基本上已经对有词库以及无词库这两种分词结果实施了对比和分析,表2所示是两种分词结果的对比情况。
表2 两种分词结果比较
编号 | 普通分词结果 | 以词库为基础分词结果 |
1 | 主/书名/页和/附/书名/页 | 主书名页/和/附书名页 |
2 | 图书/在/版/编目 | /数据/的/选取 数据/的/选取 |
3 | 书名/包括/正书名、/并列/书名 | 书名/包括/正书名/、/并列书名 |
从上表当中可以看出,基于新闻出版行业的词库,能够获取到更加准确,并且可以说是准确度更加高一些的标引结果。所以说,对于新闻出版行业来说,把词库建立起来可以说是至关重要的。
五、结语
综上所述,本文对现阶段新闻出版行业针对标准文献的结构化信息实施标引,导致用户没有办法以最快速度准确定位到自己想要查询的内容这一问题,进行了研究与实现。首先对标准结构进行了分析,其次对新闻出版行业标准碎片化标引的研究进行了探索,最后对新闻出版行业标准碎片化标引的实现进行了实验,为整个新闻出版行业的标准标引工作提供了一个全新的思路和方法,不仅能够使标准检索的效率得到有效的提高,而且能够使新闻出版行业的标准制定机构还有使用者的工作效率得到提高,其应用前景可以说是非常可观的。
参考文献:
[1]吴洁明,赵文丽.新闻出版行业标准碎片化标引的研究与实现[J].计算机工程与设计,2017,38(8):2281-2286.
[2]赵文丽.新闻出版行业标准碎片化标引研究与应用[D].北方工业大学,2017.