业内信息

面向含时引文网络的论文现时影响力评价

2020-06-27 来源:《中国科技期刊研究》
  【作 者】谭琳洁、刘向:华中师范大学信息管理学院

  【摘 要】[目的] 构建基于含时引文网络的论文现时影响力评价模型,以体现科学引文网络中的动态时变特征对期刊论文影响力评价的影响。[方法] 在LeaderRank算法的基础上进行改进,同时考虑节点新鲜度及邻居节点的数量和质量的作用,构建一个论文现时影响力评价模型。以1970—2013年有机发光二极管领域科学文献数据为实验对象,并且使用这些论文2014—2018年的被引频次作为验证数据,对所提模型的有效性进行验证。[结果] 所构建的模型能够顾及网络中时间因素的影响,对论文现时影响力评价得出较为合理的结果。[结论] 含时引文网络的论文现时影响力评价模型为期刊论文的影响力评价提供了一种新思路。

  【关键词】含时引文网络;论文影响力评价模型;LeaderRank

  随着科学技术的发展,学术论文的数量大幅增加。如何从海量文献中识别出有价值的论文、跟踪最新的研究进展,是现在研究者与期刊共同面临的挑战,论文影响力评价也受到越来越多的关注[1]。论文影响力是指论文发表后在传播过程中产生的影响[2],而对期刊论文的引用一定程度上代表着他人对于该论文内容的认可,是论文影响力的体现。因此,基于论文间的引用关系构建科学引文网络,利用网络中衡量节点影响力的方法对论文影响力进行评价。

  度中心性[3]、介数中心性[4]和k-壳分解法[5]等是常见的网络节点影响力的衡量方法,这些方法根据邻居节点的数量和位置来评价节点影响力。PageRank算法[6]和LeaderRank算法[7]在模拟用户浏览网页的过程中,使节点的影响力值沿着浏览路径传递,不仅考虑了邻居节点的数量,还考虑了邻居节点的质量。然而,科学引文网络具有动态特性,网络中的节点和边随着时间发生改变,节点在不同时间点上的影响力也会发生变化。PageRank和LeaderRank算法偏向于赋予积累了许多旧引用关系的节点以较高评价,一些新的具有潜在影响力的节点,则常常因为被引频次偏少而未获得及时关注。因此,只考虑邻居节点的数量和质量是不够的,还需要考虑网络中时间因素的影响。

  韩忠明等[8]考虑了时间因素在网络中的作用,并根据节点之间的重复联系,构造边权重的衰减机制来反映节点之间关系强度在动态网络中的减弱过程,并构建了动态网络节点影响力模型,但这种动态模型在引文网络中的应用效果较差。有研究考虑了引文网络中论文年龄的影响,如Walker等[9]在PageRank算法基础上增加了论文的年龄衰减函数,提出了CiteRank算法,并赋予新发表论文更高的权重,然而容易忽略发表时间较久的优质论文。王向阳等[10]根据论文被引时间的异质性,认为被引文献被引时的年龄越小,重要性越高,并提出一种基于PageRank算法思想的文献质量评价算法,但无法解决那些因发表时间较短而少被引用的论文影响力评价问题。

  也有研究者认为引用发生的时间对论文影响力有影响。Yu等[11]基于时间维度对PageRank算法进行补充,建立了TimedPageRank算法,以节点之间产生联系时的时间为依据,通过时间衰减函数赋予较旧的引证关系更低的权重,但没有满足原始PageRank算法的收敛条件。Yan等[12]在论文影响力评价中引入论文发表时间与引用时间的间隔,关注发表不久后就被引用的论文。这种评价方法包含了论文的被引频次、被引间隔,但忽略了网络性,没有考虑邻居节点质量与节点影响力的关系。

  根据以往研究,可以发现论文的年龄和引用发生时间对论文影响力评价都有一定的作用,同时也存在难以对低被引的新论文给出合理评价、忽略网络性和难以满足收敛条件等问题。针对这些不足,本文构建科学引文网络,基于LeaderRank算法,重点关注节点的时间属性,尝试构建一个满足收敛条件的含时引文网络节点的现时影响力评价模型。该模型研究节点在引文网络中的现时影响力,同时考虑论文的年龄和引用发生时间,从而提高了新出现的、在近期内获得一定引用的论文影响力,以帮助研究者和期刊发现现时影响力较高的论文,了解研究前沿,并为期刊论文的评价研究提供新的研究视角与方法。

  1 论文现时影响力评价模型

  1.1 LeaderRank算法

  LeaderRank算法的基本思想是在原本的有向网络G(V,E)中加入一个背景节点,并使它与其他所有节点都有一个双向边,此时G构成了一个强连通图。网络中所有节点的出度和入度都不为0,这就解决了悬挂节点“吸尽”影响力值的问题。传统的PageRank算法中每个节点都具有相同的随机跳转概率,而实际网络中拥有丰富出度链接的节点的随机跳转概率要远小于出度链接少的节点,同时PageRank算法还需要预设参数。而无参数且形式简单的LeaderRank算法很好地解决了以上两个问题,且LeaderRank在收敛速度、识别重要节点和鲁棒性方面的表现均优于PageRank算法[13]。

  初次迭代给定背景节点vg的影响力值为0,其他节点影响力值为1,即令bLR,i(0)=1,∀i≠g; bLR,g(0)=0。经过以下迭代过程直至达到稳态

  [Math Processing Error]bLR,i(t)=∑j=1n+1ajikjoutbLR,j(t-1)  (1)

  式中:bLR,i(t)表示节点vi在第t次迭代的LeaderRank值;节点vj指向节点vi时, [Math Processing Error]kjout表示节点vj的出度;aji表示网络的邻接矩阵元素,即当节点vj和节点vi之间存在边时,aji取值为1,否则,aji取值为0。

  当迭代达到稳态后,背景节点将影响力值平分给其余n个节点,于是得到节点vi在tc次迭代达到稳态后的最终LeaderRank值

  [Math Processing Error]bLR,i=bLR,i(tc)+bLR,g(tc)n  (2)

  Li等[14]在LeaderRank算法的基础上进行改进,更加重视网络中的大度节点,认为从背景节点访问其他节点时,入度比较大的节点应该有更高的概率被访问到,由此得到改进后的含权LeaderRank算法的计算公式为

  [Math Processing Error]dWLR,i(t)=∑j=1n+1dWLR,j(t-1)•wji/∑l=1n+1wjl  (3)

  [Math Processing Error]wji=(kiin)α,j→i,j=g1,j→i,j≠g0,j→/i  (4)

  式中:α为一个自由参数,可用来调节背景节点的分配权重,当α=0时,算法就回到了原始的无权情况; [Math Processing Error]kiin表示节点vi的入度;j→i表示存在节点vj到节点vi的边;j→/i表示不存在节点vj到节点vi的边。含权的LeaderRank算法考虑了单个节点的特性,在多个数据集上进行实验所得到的多个性能均比原始LeaderRank算法有所提升[13]。

  1.2 论文的现时影响力

  在研究网络节点影响力时不可忽略时间因素的影响。如果按照传统PageRank算法思想来对节点的影响力进行衡量,一篇论文的价值取决于它的被引频次和施引论文的价值,老论文由于发表的时间较早,存在的时间较长,被引概率较大,积累了较高的被引频次,会得到较高的影响力评价,而这并不表示该论文在现在仍受到很多关注。另一方面,新发表的优质论文有可能因为尚未得到较多引用而没有得到应有的影响力评价,同时,论文的发表时间很关键,因为研究者往往更关注最新的研究成果[15]。因此,本文在考虑节点影响力时重视网络中的时间因素,衡量节点的现时影响力,具体到引文网络中,反映的是一篇论文在当前时间对领域内知识传播发挥的作用大小,能够在一定程度上反映和预测论文在当前和未来的受关注情况。为了更加准确地衡量论文的现时影响力,本研究在邻居节点数量、质量的基础上引入节点新鲜度。

  节点新鲜度是指一篇论文对当前研究的影响在时间因素上的体现。时间因素主要包括两个方面:(1)该论文的存在时间;(2)其施引论文的发表时间。论文存在时间的长短对后续研究具有不同的影响,大多数情况下,新论文对创新研究的影响要大于老论文带来的影响。施引论文的发表时间更为重要,因为它反映的是当下研究人员所感知到的被引论文重要性。一篇论文即使发表时间较为久远,但最近仍被引用,说明它对当下的研究仍然具有价值。但一篇曾在过去被大量引用的旧论文,在近些年却没有新增引用,则说明该论文的现时影响力较小。根据时间因素的两个方面,节点新鲜度也要从两个方面进行衡量,分别是:(1)节点存在新鲜度;(2)施引节点新鲜度。

  正是通过增加对节点新鲜度的考虑,本研究在构建论文现时影响力模型时,为一篇论文不同时间段的引用赋予不同权值,越新近的引用关系,所赋予的权重越大,从而提高近期受到关注的论文影响力值。在不影响基于引用关系的影响力值分配的前提下,新论文应比老论文得到更高的影响力评价值。

  1.3 论文现时影响力模型

  在LeaderRank算法的基础上,构建了含时引文网络论文现时影响力评价模型TLeaderRank。在含时引文网络中添加一个背景节点vg,它到其他所有节点都有一个双向边。首先,用新鲜度矩阵Fn×n来表示引证关系和施引节点新鲜度,若论文vi引用了论文vj,则F中的元素fij=f(ti),否则fij=0。其中,ti是现年份与论文vi发表年份的时间差,f(t)是一个时间函数。设定背景节点vg的时间函数fig=fgi=1。

  对于时间函数f(t)来说,指数衰减函数通常应用于时间序列的分析[15],一篇论文的被引频次与引用时间间隔存在指数关系,论文的被引频次随着论文年龄的增大而呈指数下降。本研究中,时间函数可表示为

  [Math Processing Error]f(t)=exp(αt)  (5)

  参考文献[12]对真实数据进行统计,得到论文被引频次与论文发表时间之间的关系,取α=-0.117。时间函数f(t)为每一个引用链接按不同的引用发生时间赋予不同的权重,使那些距离当前时间已经很久的引用不会获得过高的权值。

  在含时引文网络中,施引论文的影响力沿着引用路径传递给被引论文,那么当对施引论文的影响力进行分配时,施引论文在被引论文收到的引用当中的重要性是关键的分配标准。为了能够合理地进行影响力的分配,本文通过计算引用发生的时间与当前时间的时间差得到边权重,权重的影响力计算公式为

  [Math Processing Error]wjk=fjk∑l=1n+1flkOkin  (6)

  式中: [Math Processing Error]Okin是论文vk的总被引频次,即节点vk的入度。通过引入入度,平衡了大度节点和小度节点的权重。由(6)式可知,一篇被引论文可以从新施引论文中分配到较多的影响力值,从旧施引论文分配到较少的影响力值,

  在得到含时引文网络的边权重后,影响力按所得到的权重比沿着引用关系进行传递,从施引论文vj传递到被引论文vi。影响力值的迭代公式如下:

  [Math Processing Error]dTLR,i(t)=∑j=1n+1dTLR,j(t-1)•wji/∑l=1n+1wjl  (7)

  当(7)式迭代达到稳态后,与LeaderRank算法平分背景节点影响力值的做法不同,TLeaderRank算法根据节点的新鲜度将背景节点的影响力值按年龄比例分配给网络节点,年龄越小的节点分得的影响力越多。其中,β是一个可调节的参数,β的大小决定着论文年龄对论文影响力的作用效果大小。通过对真实网络进行实验,参数β可以取0.01。改进后的方法仍然符合收敛条件,可以获得达到稳态后的影响力值,即

  [Math Processing Error]dTLR,i=dTLR,i(tc)+f(ti)β∑l=1nf(tl)βdTLR,g(tc)  (8)

  2 数据与实验

  2.1 实验数据

  为了验证本文模型的评价效果,使用引文数据库中的数据进行实验。选取有机发光二极管(Organic Light-Emitting Diodes,OLED)领域的SCI文献题录数据进行分析。选取该数据集的原因有两个:(1)OLED技术是当前全球面板产业和新材料技术的前沿领域,对其进行研究具有重要的理论和实践意义;(2)OLED经历了40余年的发展以及多代技术的更新,积累的数据量较大,科学引文网络结构较复杂。

  以“organic LED”“organic light-emitting diodes”“organic electroluminescent”“organic electro-luminescence”“polymer light-emitting diodes”和“polymer LED”为检索词,从Web of Science数据库的“主题”“标题”中进行检索。在数据清洗过程中,去除基本信息不完整的论文,最终获取到1970—2018年的3900条论文信息,根据它们之间的引用关系构建出引文网络G,共得到节点3900个,链接40844条。

  由于本研究对节点的现时影响力进行评价,而论文在未来的被引情况是论文现时影响力的最直观反映,因此,为了衡量本文模型的评价效果,使用上述引文网络G中1970—2013年的论文数据构造出引文网络G1并用于模型计算,实验网络G1中包含3305个节点和30548条边;将网络G中2014—2018年的共595篇论文对网络G1中全部节点的引用数据作为模型验证数据。

  2.2 实验步骤

  步骤1 提取每篇论文的参考文献以及发表时间,并对论文进行编号。

  步骤2 根据论文之间的引用关系建立总引文网络G和实验网络G1,并统计G1中全部节点的引用数据,用作本文模型的验证。

  步骤3 按(6)式计算节点每个引用关系的权重,作为边的权值。

  步骤4 令节点初始影响力值为1/N,背景节点初始值为1,按(7)式通过迭代计算出达到收敛后的值,并且按(8)式将背景节点分得的影响力值分给其他节点,最终得到引文网络中所有节点的影响力值。

  步骤5 将节点的影响力值与节点的被引频次验证数据进行相关性分析,验证模型效果。

  3 结果分析

  为方便对实验结果进行验证以及与PageRank和LeaderRank两个经典算法进行对比分析,分别使用TLeaderRank、LeaderRank和PageRank 3种方法计算1970—2013年的3305篇文献的影响力值,并绘制TLeaderRank得到的现时影响力值排名前50的论文在3种方法下的排名对比图(图1)。



图1   论文影响力排名比较图

  通过统计这3305篇论文2014—2018年的总被引频次,分别计算了被引频次Top 1%、Top 10%、Top 30%、Top 50%的论文和全部论文的总被引频次与TLeaderRank、LeaderRank和PageRank 3种方法得到的影响力值的相关系数,计算结果如表1所示。

表1   3种方法计算的影响力值与各区间论文总被引频次的相关性比较
算法 被引频次Top 1% 被引频次Top 10% 被引频次Top 30% 被引频次Top 50% 全部论文
TLeaderRank 0.57 0.52 0.38 0.35 0.33
LeaderRank 0.51 0.49 0.37 0.34 0.32
PageRank 0.40 0.41 0.31 0.29 0.27

  从表1可以看出,TLeaderRank方法计算的影响力值与各区间论文总被引频次的相关性要高于LeaderRank和PageRank方法,并且论文的被引频次排名越靠前,相关性越高,在被引频次Top 1%的论文中TLeaderRank方法计算的影响力值与论文总被引频次的相关性可以达到57%,而在全部的文献中相关性只能达到33%。这是因为在排名较低的论文中有大量被引频次为0的论文,在相关性的计算中排名低的论文数量越多,相关性越小。但是,TLeaderRank方法计算的影响力值与各区间论文总被引频次的相关性要始终高于LeaderRank和PageRank方法。上述结果说明在论文现时影响力评价中,与PageRank和LeaderRank方法相比,论文现时影响力评价模型通过引入节点新鲜度得到的评价效果有所改善。

  4 结语

  利用本文模型所计算的论文影响力与使用PageRank算法和LeaderRank算法得到的结果有一定差异,反映了论文影响力评价中时间因素的重要作用。在含时引文网络中,本文模型可以更加合理地评价论文现时影响力,也能够在一定程度上识别那些会继续在未来受到关注的论文。对这个模型的研究可以为期刊论文评价提供新思路,引文网络中节点新鲜度可以作为期刊论文评价的参考指标,与被引频次等信息结合可以得到更好的评价效果。

  本文模型虽然减少了旧引用关系对节点现时影响力评价的影响,以及相对降低了年龄较大的论文影响力评价权重,但论文年龄与引用发生时间之间同样存在着一定的关系,如新、旧论文同时新增一个引用,这个新引用对新论文影响力的贡献要大于旧论文。在后续研究中,还需考虑论文年龄与引用发生时间之间的关系。

  参考文献

  [1]Xia F, Wang W, Bekele T M ,et al.Big scholarly data: A survey[J]. IEEE Transactions on Big Data, 2017,3(1):18-35.

  [2]魏明坤 .学术论文影响力评价指标相关性及次生影响力系数研究[J/OL]. 情报理论与实践[2020-03-03]. http://kns.cnki.net/kcms/detail/11.1762.G3.20200211.1140.004.html.

  [3]Bonacich P .Factoring and weighting approaches to status scores and clique identification[J]. The Journal of Mathematical Sociology, 1972,2(1):113-120.

  [4]Freeman L C .Centrality in social networks conceptual clarification[J]. Social Networks, 1978,1(3):215-239.

  [5]Kitsak M, Gallos L K, Havlin S ,et al.Identification of influential spreaders in complex networks[J]. Nature Physics, 2010,6(11):888-893.

  [6]Page L, Brin S, Motwani R ,et al.The PageRank citation ranking:Bringing order to the Web[R]. Stanford:Stanford InfoLab, 1999.

  [7]Lü L, Zhang Y C, Yeung C H ,et al.Leaders in social networks,the delicious case[J]. PLoS ONE, 2011,6(6):e21202.

  [8]韩忠明, 毛锐, 郑晨烨 , 等.一种有效的动态网络节点影响力模型[J]. 计算机应用研究, 2019,36(7):1960-1964.

  [9]Walker D, Xie H F, Yan K K ,et al.Ranking scientific publications using a model of network traffic[J]. Journal of Statistical Mechanics:Theory and Experiment, 2007(6):P06010.

  [10]王向阳, 马军 .一个基于PageRank的科技文献质量评价算法[J]. 广西师范大学学报(自然科学版), 2009,27(1):165-168.

  [11]Yu P S, Li X, Liu B.Adding the temporal dimension to search:A case study in publication search[C]//The 2005 IEEE/WIC/ACM International Conference on Web Intelligence,September 19-22,2005,Compiegne,France. New York:IEEE, 2005: 543-549.

  [12]Yan E J, Ding Y .Weighted citation:An indicator of an article's prestige[J]. Journal of the American Society for Information Science and Technology, 2010,61(8):1635-1643.

  [13]任晓龙, 吕琳媛 .网络重要节点排序方法综述[J]. 科学通报, 2014,59(13):1175-1197.

  [14]Li Q, Zhou T, Lü L ,et al.Identifying influential spreaders by weighted LeaderRank[J]. Physica A:Statistical Mechanics and Its Applications, 2014,404:47-55.

  [15]Li X, Liu B, Yu P.Time sensitive ranking with application to publication search[C]//2008 Eighth IEEE International Conference on Data Mining,December 15-19,2008. Pisa,Italy. New York:IEEE, 2008: 893-898.

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号