【作 者】张津、张晓丽:河北劳动关系职业学院
【摘 要】文章分析了国际学术引用平台兴起的背景,对目前主要的CitEc、CiteSeerX和OCC三个平台进行了概述,从数据采集方式、个性化服务、开放式外部链接、统计排名服务、公益模式、反馈机制、参考文献校对等方面总结了当前国际学术引用平台的特点,最后提出了我国建设的对策建议。
【关键词】学术引用;平台;CitEc;CiteSeerX;OCC
1 背景
第一,封闭式的期刊数据库和引文数据库难以适应越来越高的开放利一研环境。几十年来,准确分析论文被引用情况,成为文献计量学的一个重要指标,也一直是以SCI和Scopus等检索工具为代表的商业公司的赢利来源,只有拥有权限的学者才能方便使用这些文献引用数据进行学术机构和学者学术影响力的分析。另外,现有期刊的引文数据主要通过CrossRef爬取,CrossRef默认是不公开的,仅能在符合出版商使用条款的条件下通过元数据搜索服务获取,因此对于过刊而言,若想实现引文数据的开放获取,出版商必须专门向CrossRef发邮件说明。这种方法虽然简单直接,无成本,但整个进度受工作人员回复时间限制。随着科研竞争的日益激烈,科研工作者不仅需要及时、广泛地阅读到最新的论文,而且还要对所关注领域论文的引用情况进行实时跟踪,以便了解科研热点,调整科研方向。虽然封闭的期刊数据库和引文数据库大多数会准确地显示引用情况,但是各个数据库之间的不关联、割裂导致单一数据库显示的引用情况难以反映该领域科研的全貌。出版商在加强自身各个子平台之间关联的同时(如爱思唯尔的ScienceDirect和Scopus,科睿唯安的SCI和ESCI),在一定程度上仍然保持着与其他数据库平台的隔离,这对于科研工作者来说,依然还是巨大的引用数据鸿沟。
第二,大型搜索引擎的引用功能在精准度上难以满足开放研究的需要。无论是国外的谷歌还是国内的百度,他们早已经在学术资源检索上发力,也逐步建立起引用评价体系,如谷歌学术指标数据库。但是,这些大型检索平台只着眼于海量的学术期刊信息,在信息的采集上存在良莠不分、筛选不严的问题,没能深入地为细分学科提供准确、具体的引用开放数据,因此科研工作者难以从中获得非常有价值的引用数据。例如,谷歌学术指标数据库只提供了英文期刊各领域前20名的信息,其余中、低档次期刊信息未知;没有提供对各领域及学科分类的标准,也没有提供每种期刊所隶属的学科信息。
第三,开放获取论文数量的快速增长急需开放引用平台的支撑。最近的一份报告显示,世界上几乎半数被搜索的学术论文都可以免费合法地下载,而且开放获取论文比例仍在稳步增长;开放获取是未来的趋势,在接下来的几十年里,人们几乎可以免费阅读所有论文。在这一背景下,科研界形成的开放共识甚至在倒逼期刊从订阅式转向开放获取模式。如《自然》于2018年启动旗下的一份新刊《自然·机器智能》,招致机器学习和人工智能界的一场大规模抵制,原因就在于机器学习界长期积极探索学术资料的“免费和开放获取”,而《自然·机器智能》这份新刊却依然延续了学术出版界惯行的、向作者和使用者收费的封闭获取原则。开放获取论文的日益增多,必然催生着论文周边数据,包括引用数据在内的开放需求,各个开放获取论文发布平台也急需建立更加开放的引用分析平台,共同提高科学研究的开放程度。
2 国际学术引用开放平台概述
正是因为以上的因素,2017年4月,“开放引用倡议”(Initiative for Open Citations, I40C)正式发布,68个来自不同国家的组织和出版商参与在这个计划中。开放引用倡议这一举措的目的就是增加结构化、可分离和开放的引文数据的可获得性,目标是让所有人都能使用准确的文献引用数据。这一倡议由维基媒体基金会发起,该基金会的首席研究官Dario Taraborelli说:“大型学术出版机构向公众免费开放文献引用数据,这是历史上第一次。”本文所讨论的国际学术引用开放平台的特点在于“引用”和“开放”。这些平台的核心数据是引用分析,而不是论文全文数据或期刊数据;最大的特点就是开放性,这些引用数据的来源不限于单一数据库,读者也可以免费获取。本文的研究对象为当前应用较多的CitEc、CiteSeerX和OCC三个平台。
2.1 CitEc
CitEc是经济学引用分析系统(Citations in Economics)的缩写,该数据库拥有112多万篇论文、5万多名专家、1100万次引用和3200万条参考文献。CitEc是RePEc(Research Papers in Economics,经济学科研样本数据库)的服务项目之一,从2001年起为经济学提供引文数据,由INOMICS(面向经济学家的会议和就业信息网站)赞助。
2.2 CiteSeerX
CiteSeerX是一个不断发展的学术论文数字图书馆和搜索引擎,内容主要涉及计算机和信息科学领域。CiteSeerX旨在提高科技文献的传播以及在功能性、可用性、成本、全面性、有效性、及时性等方面提供改进。CiteSeeX是1997年在美国新泽西州普林斯顿的NEC研究院开发的,2003年过渡到宾夕法尼亚州立大学的信息科学与技术学院。作为一个公共搜索引擎,CiteSeer最初只是作为一个原型,它的规模已经超出了它最初的架构预期,CiteSeerX是其升级后的版本。
2.3 OCC
OCC是开放引用语料库(Open Citations Corpus)的缩写。这是一个开放的学术引用数据存储库,它提供了从学术文献中获取的资源描述框架(Resource Description Framework,RDF,一种用于描述Web资源的标记语言)精确引用信息。OCC于2010年正式启动,以PubMed Central的开放获取子集(OA-PMC)为主,在全球范围内旨在改变科学出版和学术交流的面貌,目的是在RDF中发布开放题录引用信息,并使引文链接像网络链接一样容易浏览。OCC的长期目标是为世界上大多数学术文献提供引文信息。
这三个平台合在一起大约有198万篇文章,不过仅占已经发表的5000万篇文章的4%,发展还是任重道远。长期来看,这些有前途的学术项目要过渡到一个强有力的可持续的全球服务项目,还是非常困难的。对于这三个平台来说,要发展成为一个全面的、值得信赖的开放引用数据来源,为整个学术团体服务于所有学科,它们需要管理者、开发人员和营销人员等各种专业人员;还需要来自资助者、支持者和投资者的持续而可观的收人来源。
3 主要特点
第一,数据采集方式多样,一般分为自动获取和作者上传两种方式。如,CiteSeerX自动从公共网络获取研究论文,但也通过提交系统接受作者提交。它采用自动引文标引系统检索文献与评价。OCC的引用数据直接来自于文章的出版者,引用的附加元数据是通过CrossRef和ORCID获得的。OCC已经与几家主要的期刊出版商以及纯开放获取出版商达成协议,以便将来常规地获取参考数据,包括施普林格-自然出版集团、牛津大学出版社、美国科学促进会、皇家学会出版、波特兰媒体、麻省理工学院出版社和泰勒·弗朗西斯出版集团等,他们都将提供部分或所有的期刊元数据。
第二,个性化服务。作为服务于一线科研工作者的创新应用,个性化定制是引用开放平台是重要功能。CiteSeerX提供了一些功能,如个人收藏、Rss-like通知、社交书签和社交网络设施、个性化搜索设置、机构数据跟踪、透明文档提交系统等功能。MyCiteSeerX是CiteSeerX的个人内容门户网站,为用户提供了注册机制,新的日志框架和模式是用户感知和会话感知的,可以应用数据挖掘算法和推荐技术。CitEc也有My CitEc服务,包括最新一周的个人著作引用情况、与同行的引用指标比较分析、所跟踪专家的最新引用、不同指标的研究者排名、导出引用数据到表单等。
第三,开放式外部链接。除了引用数据免费对外开放外,这些平台还注意与其他开放数据平台的对接。CiteSeerX是第一个允许使用自动生成的引用链接浏览文档的,它的数据和元数据可供其他机构使用,包括CiteSeerX元数据、数据库、pdf文件的数据集和pdf文件的文本。CiteSeerX发布的数据是根据知识共享属性(CC 3.0)许可授权的。OCC每个月定期创建的合集的所有数据,会与Figshare相关联。
第四,提供统计排名服务,这是数据分析的重要应用。例如,CitEc网站提供论文和期刊等排名统计,指标含影响因子、引用次数、参考年份指标以及自引次数。CiteSeerX为数据库中引用的所有文章和相关文档计算引用统计信息,而不仅仅是索引的文章。
第五,采取公益模式,保持一定的独立性。作为RePEc的服务项目之一,CitEc遵循开源运动的商业模式,它能够在没有资金或机构支持的情况下工作。唯一的固定成本是与服务器托管相关的。CitEc实际上是一个人在业余时间完成的。再如,CiteSeerX目前的项目主要是宾夕法尼亚州立大学、北德克萨斯大学等的专家兼职运行。这几个项目能够良巨运转起来,在很大程度上都归功于持续有志愿者参与进来。
第六,及时反馈。这几个平台也保持着与用户、作者层面的积极沟通,不断完善数据的精准度。例如,CitEc规定,如果作者对论文引用有疑问,他们可以向CitEc提供缺少的引用的所有参考资料。CiteSeerX针对作者重名问题,会提供可扩展选项,方便作者自动消除其他作者歧义。
第七,参考文献校对,防止学术不端。这是一个比较创新的应用。OCC认为,参考文献校对项服务对作者和编辑有特别的好处。OCC已经在内部使用了引用校正方法;类似的Web服务可以检测上传的引用列表中的错误,这会大大减少已发表论文中的错误数量。
4 对我国的借鉴
第一,加强与国际引用开放平台的合作。随着“开放引用倡议”的发布,国家引用开放平台将发挥越来越大的作用。我国经济、信息和生物等学科的英文文献发文量在持续增加,因此,我国科研工作者应该提高开放意识,关注这些开放引用平台,并利用其互动机制,积极地跟踪相关科研信息、上传必要的文献信息,以便增加我国科技文献在国际上的显示度。
第二,建议国内大型期刊数据库和引文数据库增强开放性。从国外的经验看,开放引用的趋势正在迫使传统的订阅式期刊数据库和检索库采取开放的姿态,公开自己的引用数据,提高科研成果的共享性和透明性。我国传统的期刊数据库和检索库虽然逐步提高自己的开放意识,但很大程度上依然还是沉浸在自身的封闭系统内,不愿意向公众开放有效、集成的引用数据。这些不利于加快我国科技成果的流动、共享和开发,应该尽快加以扭转,在一定范围内逐步地提高开放程度。
第三,针对我国学科特点建设自主的引文开放平台。从国外的CitEc、CiteSeerX和OCC这三个平台看,都是有很强的学科和专业特色,因此,我国在建立自己的引文开放平台的时候,要注意结合我国创新型国家建设、“一带一路”倡议、中国特色哲学社会科学体系建设等国家导向,服务于我国自身的学科和专业建设。