业内信息

科技期刊数字内容的挖掘与服务


——以《电力系统自动化》为例

2017-03-07 来源:中国科技期刊研究

  关键词: 数字出版  期刊转型  媒体融合  数据挖掘  信息服务  数据标准化  数据分析  元数据
  
  作 者:杨松迎、王志鸿、曹荣章 南瑞集团公司(国网电力科学研究院),江苏省南京市江宁区诚信大道19号 211106
  
  摘 要:【目的】借助计算机技术和网络技术,通过研究数据库的数据展示形式和网页结构,挖掘和获取行业成果信息,提升科研人员提升科研成果信息的检索效率。【方法】分析了现阶段国内外媒体数字化转型的现状和科技期刊进行数字出版转型的必要性,提出并分析论证了小型科技期刊出版单位以自身的专业优势转型为“科研助手”型科技信息服务专业提供商的过程中,实现基于海量科技信息的核心信息挖掘、抓取、整合和提供服务的新的经营模式。【结果】设计并研发数据挖掘和分析软件工具,完成了对有效数据的自动获取和分析整理,并进行了测试和具体应用验证。【结论】根据科技期刊编辑部的实际情况提出了系统性解决方案,有利于编辑部热点跟踪、学术引领和渠道建设等方面提升工作效率、提高整体服务质量和水平,并初步探索了科技期刊从单纯办刊向科研信息服务转型的新方向。
  
  1引言
  
  1.1国内外研究现状
  
  互联网网络技术和计算机、通信技术的发展,使得期刊的出版环境发生了根本性的变化。数字出版是指利用数字技术进行内容编辑加工并通过网络传播数字内容产品的一种新型出版方式,其主要特征为内容生产数字化、管理过程数字化、产品形态数字化和传播渠道数字化。期刊的数字出版具有快捷、互动、开放和广泛性。从20世纪80年代开始,国外就开始投入大量资金进行数字出版相关领域的研究,数字出版的兴起和发展,使得科技期刊的出版形式、传播手段、阅读方式、市场主体乃至盈利模式等发生了巨大变化并导致整个传统出版行业面临结构性转变。如今,学术研究越来越依赖于网络。国际国内一些知名的出版集团和协会组织在数字化、网络化方面的建设不遗余力,数字出版相对成熟的有美国化学会纳米功能社区(ACS Nanotation)、美国电子电气工程师联合会(IEEE Xplore)、英国物理学会(IOP Science)、美国医学会、剑桥“大学出版在线”等网站平台;国内有中华医学会网站、万方数据、中国知网等。其中,IOP Science、IEEE Xplore、ACS Nanotation等网站都能使用数据关联技术实现一些专业的信息服务功能。例如:IOP Science网站提供标签云服务,方便用户对内容进行追踪和管理,实现简单的数据挖掘功能。中国知网和万方数据也都云集着大量的期刊数据资源,并已经实现对期刊的数据的挖掘分析,可以提供简单的科研成果名称的检索,但都缺乏对文章内容的碎片化处理和分析归类,这方面必须依托行业背景才有可能进行。同时,与美国近40000家、欧洲近20000家专业数据库相比,中国提供个性化服务的专业数据库不200个,且多集中在社科领域,如法律、历史等方向,研究动态、成果进展、科研方向、研究方向等科研的信息深度挖掘、整合和服务展缓慢,电力行业相关服务相对滞后。这一方面为行业类的科技期刊在数字化转型的开展方面加大了难度,难以找到可供参考的成功案例;但同时也凸显了本文研究内容的针对性和实践指导性。
  
  1.2 理论意义和实践价值
  
  在数字化时代,信息呈现井喷之势,如果通过普通的搜索引擎寻找特定行业的科研成果需要花费大量时间和精力。为了能够准确及时满足科研开发工作对现有成果信息获取和分析的需要,一方面,要对元数据信息统筹管理和深度挖掘,另一方面,要构建高效的数字化管理平台和服务体系,整合、开发、再利用数据资源,为信息需求者提供聚焦实用的参考信息,节省其信息检索和筛选的时间,提升信息获取的有效性。
  
  通过多年信息化建设,国内外很多集团企业,例如汤森路透、施普林格、中国知网、万方数据等,都已建成众多业务信息系统,用于满足专业人员的信息服务需求,准确定位关注要点,减轻日常工作量,进而提高工作效率。然而,这些数据库共同的问题是,缺乏行业特色,由于经费和人力的限制,只能“大而全”地收集国内外期刊和会议的文章,通过标题、作者和摘要等简单信息供读者查询获得,对筛选结果的评价、查询所得到的成果也缺乏行业内的专业评价。本文提出依托杂志社的投审稿平台、编辑部内部相关业务系统以及行业公开系统中的大量完整信息,深层次挖掘包括专家、作者、文章全文信息,改变以往系统只能被动收集少量公开信息的局限性,最大程度提供可公开的详尽信息,并依靠这些信息进行深层次的关联,实现专家、团队、成果等的紧密关联,以为用户提供更加专业、详尽、具有高度参考性的信息。
  
  由于目前数据库的检索能力有限,缺乏全文精确检索功能,对于科技期刊来说,在国内外知名数据库里每天进行大量的查找和筛选工作费时费力,若要实现根据用户需求从提供“被动”服务转变为提供“主动”服务,实现企业对信息系统服务的有效管理,将会成为企业及科研院所提升科研信息化工作水平的重要工作之一。
  
  基于实际需求,建立包括期刊、标准、典型工程解决方案等内容丰富的科技期刊数字出版和管理服务系统。本文以某国内知名电力期刊的数字化转型实践为依据,首先对这些原始资料进行全文碎片化处理,按照实际使用需求形成多种组合的内容板块,并加以归类、细分,形成电力行业专业数据库。然后,在每个成果的数据中添加访问历史、评价及观点,最终实现更加方便、高效地为科研人员提供精细化、个性化的信息情报服务,显著减少科研人员的查询时间,提升科研效率。同时,借助科研信息精准抓取和定向精准推送的功能,将科研人员感兴趣的最新成果精准的推送至其9:;<=>中,实现信息服务的目的。这是目前科技期刊实行数字化转型和媒体融合的良好切入点。
  
  2 研究思路和方法
  
  主要研究思路是,收集与电力系统专业相关的期刊、专著、教材、音像、信息、标准、行业报告、解决方案及产品信息等,利用关联分析法、聚类分析法、回归分析法、行为分析法等数据挖掘方法对这些信息进行深加工,对数据进行标引、关联、组合、细分、动态优化、二次发布等,按照实际使用需求形成多种组合的内容“货架”,反映最新研究动态和成果的专业信息,同时根据不同的客户的研究方向和研究进程,动态匹配并为其提供行业内相似课题项目组信息,以促进同行之间的交流,缩短研究过程中资料收集和整理的过程以及科研成果成文的过程,阶段性提高科研效率。
  
  从科技期刊自身建设和信息服务的可持续性角度考量,“作者专家库”建设是数据挖掘的应用之一,可广泛和深度应用到电力行业期刊数字出版与传播。实现作者专家库建设,发挥作者专家库作用,根据数据挖掘的常规流程划分,主要包括“数据获取”“数据分析”“数据应用”等环节。
  
  2.1 重点研究内容
  
  研究如何整合专业信息,开发相应的工具,按照门类甚至研究的专题整合研究成果,为信息需求者提供聚焦实用的参考信息,节省其信息检索和筛选的时间。研究内容主要包括如下。
  
  1)数据获取,以国内外知名的资源数据库平台为数据源,根据电力行业多个指定的研究方向,构建当前国内外电力科研相关前沿领域的信息挖掘体系的框架,并建立系统性的元数据管理方法。
  
  2)数据分析,基于数据挖掘功能,实现数据的标引、组合、关联,进而实现针对特定的读者用户提供对应的信息需求服务功能,缩短科研工作者的文献检索时间,帮助提升科研效率。
  
  3)数据应用,充分发掘在互联网和移动互联网广泛普及的环境下可以利用的科技信息传播渠道、方式,如使用电子邮件进行点对点的精准推送,将读者用户感兴趣的数据内容有针对性地推送到位,研究提升期刊影响力和读者和作者互动方面的功能。
  
  2.2 数据获取
  
  数据获取,主要是指利用互联网抓取技术手段,依据(国内外)电力行业期刊论文数据库,收集获取作者信息,特别是符合现代通信特征的地址、E-mail、主要研究方向,形成不断扩充不断丰富的资源信息库。以往需要人工登录各大数据库后,按照搜索结果逐条打开,甚至打开文章原文进行查看,然后再人工登记获取到的数据信息,工作量庞大。因此,在数据获取方面,主要是利用文章的相似文献或参考文献,通过自行研发的软件工具,自动抓取相似文献或参考文献链接打开后的数据信息,并进行解析获取,大幅缩减了工作时间。相比依托期刊编辑部自身固定资源的获取方式,采用软件工具进行自动抓取将是作者专家库信息资源补充的重要实现途径之一,以IOP Science数据库为例,检索“power”词,搜索结果如图1所示。
  

图1 根据特定关键词的检索结果截图
  
  对于搜索结果,并打开结果内容链接,比如“A low power 12-bit 1  Msps  successive approximation register ADC with an improved switching procedure”文章,可以获取到论文文章的全部meta标签信息,根据页面特征分析,获取到作者信息(Xin Fubin, Yin Tao,Wu  Qisong,Yang  Yuanlong,Liu  Fei,Yang Haigang),地址信息(1. System on Programmable Chip Research Department,Institute of Electronics,Chinese Academy  of  Sciences,Beijing  100190,China ; 2.University of Chinese Academy of Sciences,Beijing 100190 , China ),还包括通信作者的E-mail信息(yanghg@mai. ie.ac.cn)。同时,也可以获得该文章所属期刊的详细信息(刊名、年卷期、页码范围、DOI等)。每条文章的内容非常复杂,使用人工提取工作量十分庞大。因此借助软件工具并配合后期的数据分析将十分方便。
  
  2.3 数据分析
  
  以获取到的作者资源信息为例,说明对抓取到的数据进行数据分析处理的过程,科研信息的数据抓取类似。因为编辑部对专家学者的专业方向细分和分类管理的基础,为期刊组织专题、征稿、实现小同行审稿、有针对性定向推送奠定了科学的基础。
  
  定义作者信息的属性包括基本属性与扩展属性。作者信息的基本属性主要包括姓、名、单位、国别、E-mail、电话等;扩展属性则包括论文发表年、卷、期、DOI、标题、关键词、摘要等和作者所发表论文的相关信息。这些信息的同步抓取与解析,是为更好实现对数据进行加工处理、分类及应用。根据设定的标准化资源信息数据构成进行数据格式转换及数据清洗等过程,并最终实现数据聚类分类,达到可应用标准。
  
  通过各种数据获取手段所得到的信息资源,需要依据标准化的属性定义,进行数据加工处理即数据清洗,一般采用XML文件形式,通过对各属性的节点名称定义,将抓取到的文件格式转换为标准统一的作者信息专家信息XML文件,如图2所示。作者资源信息的最终提取结果如图3所示
  
 
图2 专家信息库的XML格式文件截图
  

图3 专家数据库信息列表的截图
  
  2.4 数据应用依托完备的数据结果,通过研发相关工具实现对科研人员的定向精准邮件推送服务,根据用户的个性化需要,将其所感兴趣的专业方向的文章信息通过电子邮件、搜索引擎等途径直接将统计后的数据精准地展现在用户眼前,大大缩短了在各大数据库不断进行文献检索的工作量,可以有效提升科研效率。同时,后期还可以根据用户的行为习惯进行数据的分析挖掘,提升相关信息的提升和跟踪服务能力。
  
  3 应用成果及分析
  
  3.1 研究成果分析
  
  以WOS数据平台为基础,先后使用人工和数据挖掘分析工具对22个电力行业特定关键词进行数据信息的挖掘工作,在web of science数据库中梳理出2011年至2015年共计78902个搜索结果,元数据包括作者姓名、邮箱、单位、国别、发表的文章信息(文章标题、关键词、DOI)和期刊信息(刊名、文章所在的年卷期及起始页码)。以这些数据为基础,筛选甄别高活跃度、高影响力专家,进一步通过定向搜索或与专家团队建立联系来扩充科研相关信息,使得专家信息的完备度、可用性得到提升,从而逐步扩展期刊的核心专家库规模,强化期刊的核心办刊资源。同时健全专家评价机制,切实发挥专家的专业特长。
  
  3.2 应用成果
  
  根据挖掘结果,按专业方向建立了专家数据库,并对各个专家按照各专业方向通过研发的邮件推送系统进行了对应研究领域的专辑征文通知、期刊文章信息的精准推送,节约了大量服务时间,读者可以收到与自己专业方向十分贴近的最新文章信息和该领域的征文信息,提升了期刊的科研信息服务水平。
  
  3.3 成效分析
  
  仅从作者信息获取一项来说,若这些数据使用人工查询的方法来完成,假设对1条搜索结果进行打开数据库相关网页和复制页面上的作者姓名、作者单位、作者国别、作者E-mail,所发表文章的标题、关键词、DOI、摘要,文章所属期刊的年、卷、期等相关信息,对应粘贴到Excel表格中的操作需要1min,按每人每天工作8h计算,不考虑人工出错的问题,那么使用人工方法完成78902个精确数据的时间需要约165天・人的工作量。而使用数据挖掘技术,可以缩短至约15天・人,可以减少90%以上的人工成本,而且由于大部分工作是使用计算机完成。后期随着自动化技术和工具的应用,工作效率将进一步提升。因此,在数据准确度方面可以得到有效保证,是一种值得应用推广的数据挖掘技术。
  
  3.4 成果小结
  
  科研团队在该项目的实施过程中,通过系统性总结当前国内外重要学术期刊的数字出版形式、科技信息数据挖掘体系及管理方法,梳理形成了数据挖掘系统开发的实现方案、操作规则和信息整合方法。借助计算机技术,解决了相关的技术难点,有效提升了科研信息服务效率和质量。初步实现了在科技期刊领域,构建支撑以上功能及支持数据出版,提升读者检索、使用效率和获取个性化信息一体化服务平台。
  
  4 结论和建议
  
  4.1 结论
  
  (1)传统科技期刊出版单位转型为“科研助手”型科技信息服务专业提供商是数字化转型的一种可行路径,即在充分了解科研需求的基础上,通过基于海量科技信息的核心信息挖掘、抓取、整合,为科研提供专业化的信息服务。
  
  (2)开发支持新的经营模式的一体化信息服务平台,实现标准化、自动化的科技信息标引和加工,是实现专业信息化服务的必备条件。。借助计算机技术和网络技术,克服传统期刊经营在渠道建设方面的不足,开发数据挖掘和邮件推送工具,是期刊转型发展的必由之路。本文研究成果的初步应用证实了以上结论的正确性和有效性。
  
  传统的传媒行业,尤其是受众极少的科技期刊行业,需要积极借鉴和吸取新技术和新方法,探索更多有利于科技期刊可持续发展的新模式。基于传统科技期刊经营中出现的问题而开展的针对性研究并根据科技期刊编辑部的实际情况提出的系统性解决方案,有利于编辑部提升工作效率、提高整体服务质量和水平,有望帮助编辑部找到向科研信息服务转型的新方向。
  
  4.2 建议和启示
  
  由于处于数字出版技术研究的起步阶段,本文研究尚有大量需要完善的地方,虽然在主体功能方面,能够实现计算机的自动挖掘和加工,但是,需要人工干预的环节仍然较多。今后将针对以下几个问题进行改进和完善:
  
  (1)在模型建立和后期的模型评价方面,专注于于应用和实践,缺乏整体理论体系的支撑,需要进一步提炼和提升。
  
  (2)数据挖掘工具方面,还是需要有部分的人工干预参与,在专业方向上需要有资深的业内专家先行进行范围的指定,在后期数据整理时还需要有人员进行精细化梳理等问题。
  
  (3)信息推送方面,形式较为单一,目前还停留在E-mail推送阶段,下一步将借助新媒体技术(如微信平台)开发更方便、实用的服务工具,提升用户的产品体验。
  
  (4)数据挖掘技术不够深入,今后将探索运用XML技术将文章进行全文碎片化处理,并实现移动互联网的用户体验,提升期刊整体的数字化服务水平。























国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号