【摘 要】:期刊大数据分析是研究学科发展的重要新型方法之一。选取2005—2014年海洋学科期刊出版数据为例进行学科发展测度研究。数据计算得出海洋学科及其各子学科的科研力数值、学科发展相对优势及发展进程、地区学科发展优劣势、学科中外发展差距的比较情况。期刊出版大数据测度研究可充分达到反演学科发展趋势的目的,为科技创新和期刊学术能力提升提供科学决策支持。
【单 位】:李雪,赵一方,蔡仁翰,崔晓健 国家海洋信息中心《海洋通报》编辑部;中国知网《中国学术期刊(光盘版)》电子杂志社;
【关键词】:期刊大数据 学科测度 学科发展相对优劣势 学科发展进程 学科发展反演
科技期刊出版是将本学科的前沿科学技术研究及学术成果以最快的方式通过专业出版机构进行知识审核和传播服务的重要途径。科技论文出版可迅速反映该项研究领域的发展水平。期刊出版后,通过现有文献计量方法可判断文章的影响力、期刊的引证情况和关注度,以及期刊与同行间的优势和差距等,及时获得出版情况的反馈。而各期刊出版本身所形成的数据集合又是一种数量巨大的可待挖掘潜在信息的具有重要科学研究价值的资源,对于学科发展的判断及预测分析具有关键性的学术指导和决策参考作用,值得期刊和文献工作者深入研究。
1 大数据与期刊大数据
大数据是在获取、存储、管理、分析方面远远超出传统数据库软件工具能力范围的数据集合,具有海量数据规模、快速数据流转、多样数据类型和价值密度低四大特征[1]。大数据技术的意义不止于掌握庞大的数据信息,更在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键在于提高对数据的加工整合能力,通过加工整合来实现数据的增值服务[2]。
期刊大数据是基于期刊出版所形成的数据集,具有大数据的统一特征,如期刊文献数据量大、出版数据周期性更新较快、数据类型丰富等[3]。期刊大数据研究具有鲜明的文献学特色和出版实践指导意义,尤其是对期刊出版的海量数据进行分布式的数据挖掘,即通过文献评价技术指标和文献情报学转换分析对统计数据进行整合和加工分析,提供重要的深度出版反馈信息和学科发展测度分析,将尚未充分开发或闲置的宝贵出版数据资源进行合理利用和进一步创新应用的先进方法。
本文基于期刊大数据研究方法,以海洋学科为例,研究海洋学科及其各子学科的科研力、发展相对优势及发展进程、地区和区域发展、中外发展比较等,为海洋学科发展提供学术支撑,为期刊大数据研究和出版科技发展提供实证分析。基于期刊大数据的学科发展测度研究结构框架见图1。

图1 基于期刊大数据的海洋学科发展测度研究框架
2 学科发展测度基础分析
以2005—2014年海洋学期刊出版大数据为例,通过数据分析处理技术,研究其在海洋学科发展中的科研数值特征和趋势变化。基于中国知网CNKI资源总库和中国引文数据库,将我国海洋学科论文按照国内海洋科学的科研和教学需求分类,并采取中图分类法对数据库内论文分别进行对应提取,将提取的海洋大学科和12个子学科(物理海洋、海洋地质、海洋化学、海洋生物、海洋环境、海洋工程、海洋测绘、海洋调查与观测、海洋物理、海洋资源与开发、海洋社科、区域海洋学)论文进行深度加工开发,形成各类研究指标反映数据及其具体分析,可归纳为学科量化分析、学科机构分析、学科作者分析3类。
2.1 学科量化分析
学科量化分析采用中国科学评价研究中心的科研竞争力体系[4] 的科研生产力、科研影响力、科研创新力、科研发展力、网络影响力5 项指标进行研究。这些指标不仅从科研产出、影响、创新、发展、开放5 个维度充分阐述了学科发展,还以公式算法对接了期刊大数据中的学科发文、学科被引、学科热度、学科高被引占比、学科网络下载情况,较好将期刊出版数据反演到学科量化分析上。
(1)科研生产力。通过海洋学科2005—2014年总发文量、12个子学科发文量、全国各地区海洋学科发文及其12个子学科发文数据计算,反映出海洋学科10年间的全国总体科研产出变化及其科研生产力分布,各地区海洋子学科科研产出变化、地区间海洋子学科的科研产出差异及各地海洋子学科科研发展特征。
(2)科研影响力。通过海洋学科及12 个子学科论文的总被引、篇均被引频次的数据,反映出海洋学科及各子学科的学术关注度和影响力差异;通过总被引频次和海洋学科引用频次数值离差对比分析,反映出各子学科与非海洋学科的交叉融合度差异特征,进而反映学科的影响力范围;通过各地区海洋学科论文高被引分析,反映各地海洋学科的学术影响力特征和地区间学术影响力分布差异。
(3)科研创新力。以热门论文10年间数量变化反映海洋学科科研创新发展。其中,热门论文通过时间区间内末尾2 年(2013—2014 年)发表论文在近2 个月被引频次前0.1%论文与时首2 年(2005—2006 年)情况数据特征对比,分析出海洋各子学科创新变化,揭示了科研热度提升情况和子学科创新差异,折射学科需求和学科生态环境。
(4)科研发展力。通过12 个海洋子学科的高被引论文占有率指标来衡量,即高被引论文数与论文发表数的比率,这一比值说明了海洋各子学科在今后发展中产生优秀论文的可能性高低,是否有能力持久保持发展地位。
(5)网络影响力。以海洋学科及其12个子学科网络下载频次数据排名的前100和前500论文数据特征,对比出海洋学科和各子学科的开放获取程度,反映学科学术知识与资源需求的价值和社会普及度。
2.2 学科机构分析
中国海洋学科的研究机构主要涉及范围有:涉海高校、海洋研究院所、国家及地方各级海洋行政管理部门、涉海企业以及其他组织(含社会公众)。对海洋学科论文发文机构的数据研究可有效显示各机构在海洋学科中的作用和贡献程度,反映学科发展的基础支撑和来源。
(1)机构类型。通过对各类海洋机构在海洋学科及其子学科中的发文量计算分析,数据结果清晰反映了我国海洋科研产出的机构类型和分布特征,具有鲜明的海洋专业特色:基础理论型子学科以高校科研力量最为雄厚,兼具科研与观测科考的子学科以海洋研究院所实力最强,二者占总量90%以上;而在海洋工程、海洋资源与开发等子学科中,涉海企业展现出一定的研究实力,分析结果体现了海洋科研产出的来源、类型和能力。
(2)机构个体。学科机构分析不仅在类型层面,采用科研机构H指数分析还可细化到具体单位。机构H指数越高,说明科研机构个体在国内海洋研究领域的地位越显着。同理,12 个海洋子学科的科研机构H指数分别排序反映出各子学科的研究单位科研影响力情况,各单位也可通过此分析结果掌握自身在该领域内的科研地位。
(3)机构特化。通过对期刊大数据分析的进一步特化研究,可产生具有特殊意义的分析及结论。如对国家海洋局系统各单位的学科科研水平可通过顶尖论文(高被引TOP1%)、专家论文(高被引TOP5%)做出系统内单位各子学科科研影响力分析。此外,通过此方法在横向上还可对典型机构的学科布局特征做出科学分析,并对比典型机构间的学科影响力布局机构差异。
2.3 学科作者分析
对海洋学科期刊大数据中作者的分析不仅对学科国内人才情况有较科学合理的分析,还能反映出较深层次的学科科研成果指向情况。
(1)作者力量。通过对海洋学科和12个海洋子学科第一作者论文H指数的数据分析,可反演出国内期刊中海洋学科及子学科作者的科研影响力,说明作者在海洋科研中的价值和科研地位。围绕作者科研成果开展专家专题研究,延伸学科发展测度研究。
(2)作者关注。通过对海洋学科及子学科的热门论文、高被引论文数据研究,可深入分析作者的科研关注点、学科流行趋势,提供期刊学术指导。
(3)作者比对。基于中国知网资源总库和中国引文数据库的海洋学论文客观反映了发表在国内期刊上的论文水平和作者情况;与本文第4部分基于Web of Science数据库海洋学科论文中国作者的对比可反映出我国海洋科研成果首发外流情况、同一作者科研力量在国内外的地位差异等,从而也为我国海洋科技期刊争取顶尖实力科研成果提供出版实操支持。
3 学科发展测度情报分析
学科发展测度基础分析是通过大数据基础分析从各指标量的角度来反映学科发展情况,具有宏观分析上的意义,但研究还不够深入,对数据的使用情况还不够充分。学科发展测度情报分析通过文献情报学和科学统计学方法将基础分析的数据通过大数据计算程序转化为文献情报数据,以更直观且更贴切地反演学科发展的真实情况,揭示海洋学科发展关联性,各地区各学科发展的优劣势和发展进程。
3.1 学科关联度分析
学科发展关联度是反映学科间相互关系的分析指标,可体现海洋各子学科在海洋科学整体学科结构关联中的地位和作用。
根据中国引文数据库,利用2005—2014 年海洋各子学科论文之间的引用和被引关系,产生海洋专业学科间相互引用关系,见图2。其中,箭头指向为被引文章,线越粗表示该学科被引用的次数越多。学科发展关联图将学科间相互关系可视化,使学科之间的相互联系和交叉融合情况直观明晰。

图2 2005—2014年海洋学科发展关联度
3.2 学科发展相对优劣势分析
学科相对优势指标源自美国经济学家巴拉萨于1965 年提出的显示性比较优势指数(Revealed Comparative Advantage Index,简称RCA指数)[5]。RCA指数是衡量一国产品或产业在国际市场上的竞争力的最具说服力的指标,后被国际情报学用于文献情报分析中。根据RCA指数原理,建立了海洋学科优势指数S—RCA,将期刊大数据迭代计算,判断各地区各海洋子学科的相对优劣势。
S—RCA为某地区某海洋子学科发表的论文数占该地区发表的总论文数的比重与该海洋子学科发表的总论文数占所有地区所有学科发表的总论文数比重的比值:

式1)中,i为地区,j为学科领域,Pi,j 为i地区j学科领域的论文数。S—RCA值大于1,表明该学科在该地区具有相对优势;等于1,表示没有相对优势与劣势之分;小于1,说明该学科在该地区处于相对劣势。
(1)地区的学科相对优劣势分析。将S—RCA数值进行统计分析,对每个地区的12 个海洋子学科S—RCA数值进行研究,可得出地区的学科优势和劣势。其中,12 个子学科S—RCA值均高于1 的地区具有较高的地区学科优势,学科整体实力强,如山东、浙江、天津;子学科S—RCA值均低于1 的地区处于地区学科劣势,学科整体实力弱,如河北和内陆地区。其余地区均存在子学科相对优劣势并存,不同程度地反映了学科发展不平衡情况。
(2)学科的地区相对优劣势分析。将每个海洋子学科的地区S—RCA数值整理研究,可得出学科的地区优势和地区劣势。由此可直观反映该学科在全国各地的发展优劣势情况。如物理海洋除在河北、广西和各内陆地区以外,其他沿海地区都具有相对优势,说明该学科在沿海大部分地区的科研优势均高于当地的平均科研水平。
(3)学科相对优势发展类型分析。通过对各地区12 个海洋子学科的S—RCA值绘制雷达图,以视图形式反映学科相对优势发展类型。各地雷达图可分为3 类:均衡发展型、一枝独秀型、多元发展型;分别对应了地区各海洋子学科均衡发展(如浙江)、单一学科突出发展(如海南)、存在几个优势子学科的情况(如上海),见图3。

图3 海洋学科相对优劣势发展类型分析图例
3.3 学科发展进程分析
发展进程指数是反映学科发展速度的重要评价指标,即历年相对于基年的定比指数的平均值[6]。学科发展进程指数I 是指学科论文产出量的平均发展速度。I 值大于1,说明该地区该学科具有较快的发展速度;等于1,表明该地区该学科无明显发展进程;小于1,说明该地区该学科处于衰落状态。

式2)中,ai 为历年数据,a1 为基年数据,k 为年数。以2005 年期刊数据为基年数据,计算2005—2014 年海洋学科发展进程指数。
(1)全国海洋学科发展进程分析。将12个海洋子学科的计算所得I数值进行统计分析,可得出全国海洋各子学科10年发展进程。其中,最高值海洋测绘3.59,说明该专业10年来在海洋科研领域发展中速度最快;此外,除区域海洋学外,其余各子学科均大于1。
(2)地区海洋子学科发展进程分析。将各海洋子学科在全国各地区的计算所得I 数值进行统计分析,可得出各地区海洋各子学科发展进程。经分析,山东、辽宁、福建3 地区12 个海洋子学科I 值均大于1,说明所有子学科在这些地区都具有较好的发展;其他各地在不同海洋子学科发展中有增有减,河北、海南50%以上海洋子学科I 值小于1。
(3)海洋子学科地区发展进程分析。通过各海洋子学科在全国各地的I 值统计分析,可得该子学科在各地区的发展速度。从而为各地海洋学科发展的建设和调整方案提供数据依据。
海洋学科发展测度的情报分析有效衔接了期刊统计数据与海洋文献情报。通过对海洋学科的关联度、相对优劣势、发展进程的分析,为期刊大数据的延伸开发和充分利用提供了重要研究方法。其研究结果也反哺了期刊出版学术方向、地区的选择,具有重要价值。
4 中外学科发展测度对比分析
海洋学科的国际比较是衡量一个国家海洋科学最高科研实力的真实体现。在中外海洋学科差距研究中,基于Web of Science(Wos)数据库分类(中外海洋学科分类不同,该数据库仅分5 大类:Oceanography,Engineering Ocean,EngineeringMa r i n e ,L imn o l o g y ,Ma r i n e&F r e s hwa t e rBiology),分析海洋学科的国家、地区、机构、顶级论文、作者情况,研究海洋相关学科科研产出、中外各国海洋学科发展优势分布及其差异。
4.1 国家地区分析
Wos 是基于Web 建立的国际学术信息检索平台,整合了世界各国优秀核心引文,具有相当的学术价值,为学科领域的研究人员提供信息服务[7]。海洋科学的世界级水平科研成果论文在该数据库中得到了较好的体现。通过对Wos 数据库2005—2014 年的5 大类海洋学科SCI 发文和被引情况,分析各海洋学科的国家科研实力。
(1)量质对比分析。发文数据显示了国家科研生产力的排名情况,美国在5 个学科中均处于首位,中国除Marine&Freshwater Biology 学科外,均排名第二,具有较高的科研论文产出。但我国高水平论文的国际影响力较弱,被引频次、篇均被引均与发达国家相差较大,特别是在Oceanography学科中篇均被引仅为5.72,远远低于法国、美国、德国、英国、加拿大等国。
(2)学科舆情分析。在期刊大数据计算中发现,北欧国家在海洋科学领域篇均被引频次方面名列前茅,如丹麦、瑞典、挪威等国。尤其是荷兰,3 个学科篇均被引频次均排名第1,说明其总体上具有较前沿的科研水平,在世界上有较强的科研影响力。这为我国海洋科学国际合作交流提供了重要的学科文献情报,也为海洋学期刊国际化发展提供了出版方向和借鉴参考。
4.2 科研机构分析
通过对Wos 中5 个海洋学科机构发文和被引情况分析,以大数据计算出基于发文量、基于被引频次的各学科世界科研机构排名,从而挖掘顶级海洋科研力量的产出单位。
(1)机构情报分析。机构情报分析不仅体现了人们常识中的世界顶级海洋科研机构的研究领域和实力,也对以往观念中不熟知的该领域科研单位有了新的认识。大数据体现了中国在海洋各学科中的科研机构的世界影响力,虽总体上不具备较领先的地位,但在某一两个学科排名中能够有所跻身,如大连理工大学在Engineering Marine学科中具有较好的排名成绩。
(2)机构细化分析。为了更真实具体地反映我国科研机构在世界上的海洋学科科研能力,通过大数据统计将5 个海洋学科中我国科研机构进行了数据提取和世界排名排序,清晰地反映了我国各海洋机构在国际上的科研地位,对海洋学科科研差距的认识也更加深了理解和认知。
4.3 顶级论文产出分析
美国ISI 将在特定领域和年限中位于被引频次排名前1%的论文定义为顶级论文。基于Wos 数据库,对2005—2014 年世界海洋学科顶级论文产出进行了数据统计,对顶级论文产出率进行了计算[8]。
(1)学科前沿分析。国际海洋顶级论文产出量和产出率排名说明了世界国家(地区)海洋学科的前沿研究情况和领军能力。中国大陆地区在5个学科中除Engineering Marine 以外,均排名顶级论文产出的前10 名以外,在产出率方面情况更差。但中国台湾地区的Engineering Marine 顶级论文产出率却居世界领先地位,值得关注。
(2)特化分析研究。为研究中国作者在世界海洋科学中的科研影响力和国际地位,通过大数据提取了5 个海洋学科中国作者高被引论文的前10 名及其被引情况排名;同时,为更详细了解海洋科研院所内国际顶级论文作者情况,也进行了特化研究,如在5 个学科中分别提取了国家海洋局系统、中国科学院系统的高被引作者及其论文的世界和中国篇均被引频次排名。
4.4 学科结构优势分布分析
为反映海洋科学在国际上的发展情况和学科布局关系,将海洋5大学科及与其有密切交叉关系的学科进行了大数据整理,采用本文3.2中式1)学科相对优劣势计算方法进行数据计算分析,得出世界各国各海洋学科及相关学科的相对优势指数,并对这些指数值进行分析,绘制相对优劣势可视化关系雷达图。每个雷达图都体现了该国家海洋学科及其相关学科的发展优劣势。各国优劣势学科各有不同,反映了各国海洋及相关学科结构的优势分布情况。
对各国海洋及相关学科发展优劣差异的研究,可比较国与国之间,如发达国家与发展中国家、邻国之间、利益竞争关系国之间的海洋学科结构优势分布差异[9]。从国际政治和科技经济发展角度,选取与我国海洋科技有关的热点国家进行学科结构及优势分布分析,通过这些国家的海洋及相关学科优势情况分析,为我国海洋学科在国际科技合作、金融投资等方面提供文献情报,为海洋科研管理提供决策依据,也为海洋科学期刊出版的国际化学术选题和出版方向拓展提供重要信息。
5 结 语
本研究从学科发展测度基础分析、学科发展测度情报分析、中外学科发展测度对比分析3 个方面反演了学科科研力、发展优势、发展进程,以及中外对比和差距。通过对国内、国际海洋科学的期刊大数据分析研究,有效挖掘了期刊数据背后的隐性文献情报,为我国海洋学科发展、学术提升和科技创新提供了定量分析的科学指导,为国家海洋学科发展战略提供了决策性参考依据。同时,期刊大数据的学科测度分析结果为期刊出版的学术方向、机构、作者的遴选,以及国际化出版业务开拓提供了重要的信息参考。
致谢:感谢中国知网—中国科学文献计量评价研究中心的伍军红老师和肖宏主任给予的学术指导和帮助。感谢中国知网科学文献计量评价学术研究团队对本研究提供的期刊出版数据支持和技术支撑。
参考文献
[1]严霄凤,张德馨. 大数据研究[J]. 计算机技术与发展,2013,23(4):168-172.
[2]尚策. 大数据时代的数据拥有者—专业出版视角的数据类型与价值分析[J]. 科技与出版,2016(1):13-16.
[3]刘俊,张昕. 大数据视域下的科技期刊数据库建设[J]. 编辑学报,2014,26(1):59-62.
[4]邱均平,赵蓉英,王菲菲,等. 世界一流大学与科研机构学科竞争力评价的做法、特色与结果分析[J].评价与管理,2012,10(2):18-24.
[5]胡国恒,梁文化. 中国服务贸易国际竞争力—基于1999—2008 年数据的实证研究[J]. 发展研究,2011(1):16-19.
[6]党亚茹,彭丽娜. 基于CSSCI 的区域社会科学学科优势分析[J]. 情报杂志,2012,31(4):22-27.
[7]谭晓,张志强. 图情领域中专利分析主题的研究进展—基于WOS 的文献分析[J]. 图书情报工作,2012,56(20):85-91.
[8]王晓君,张俊杰,胡宝仓,等. 中国SCI 论文数据分析与思考[J]. 科研管理研究,2012(17):48-54.
[9]Li Y Y,Ting Y,Jie L D,et al.A comparison ofdisciplinary structure in science between the G7and the BRIC countries by bibliometric methods[J].Scientometrics,2012,93(2):185-188.