【摘 要】[目的] 系统研究预防医学类科技论文被引频次的影响因素,为全面认识被引频次提供科学依据。[方法] 通过中国生物医学期刊引文数据库检索2014—2017年发表在《中华预防医学杂志》的所有文献,人工统计各文献相关信息;通过中国科技论文与引文数据库,获得由中国科学技术信息研究所提供的上述文献在2014—2018年被中国科技核心期刊引用的数据信息。分析论文被引频次的分布规律,并采用广义线性模型的负二项回归模型和多因素有序多分类Logistic回归模型分析除学术质量以外的被引频次的影响因素。[结果] 《中华预防医学杂志》2014—2017年共发文929篇,总论文版面数为3564面,篇均3.84面。论文总被引频次为3861次,被引频次的M(P25,P75)为2(1,5)次,篇均被引4.15次。负二项回归和多因素Logistic回归模型分析结果均显示:发表时间越早、论文版面数越多、重点号专题、述评类、传染病和慢性非传染病流行病学学科论文的被引频次较高。[结论] 除学术质量外,论文的发表时间、论文版面数、是否为重点号专题、论文类型和学科分类可能与被引频次有关联;在编辑实践中,可参考上述结果组约稿件,进一步提高期刊的学术影响力。
【关键词】 被引频次;科技论文;影响因素;文献计量学
科技论文是科技成果的重要传播载体,承担了传播科技创新、引领科技发展的责任,也体现了国家的科技竞争力和文化软实力。被引频次是指论文发表后,截至某个时间点被其他论文在参考文献中引用的次数。自Gross于1927年将被引频次用于评估科学工作的影响力后[1],作为一个成本较低的客观评估工具,被引频次被广泛用于评价与学术论文有关的期刊、学科(专业)、国家(地区)、单位(个人)的科学贡献及学术影响力,且已成为国际公认的评价指标之一。尽管目前被引频次评价在实践中存在一些问题,如指标不够完善、有学科差别甚至可能诱导学术不端等,但总体来看,被引频次相对客观地反映了论文、期刊等的学术质量,因此也有必要进一步对其发展规律开展研究。
被引频次的影响因素有很多,其中最主要的应该是论文的学术质量,一篇能够正确揭示事物客观规律和本质的科技论文,自然会被其他研究者频繁借鉴和引用。除此之外,既往研究表明,某些与论文相关的内部因素(如论文版面数、作者数量等)以及一些外部因素(如期刊影响因子、引用习惯)等也可能会影响论文的被引频次。目前国外学者对被引频次影响因素的研究较多,如Robson和Mousquès[2]研究了版面数、作者数量、脚本情况等指标对论文被引频次的影响;Borsuk等[3]采用广义线性模型估算了第一作者的性别、论文语言和作者数量对被引频次的影响;Cano和Lind[4]对当期和过去被引频次的关系进行了深入研究。相比于国外广泛且系统的研究,国内研究更多就某单一因素对被引频次的影响进行探讨,如袭继红等[5]、姜磊等[6]、付雅静等[7]、杨利军等[8]、付中静[9]分别研究了国际合作或科研合作、参考文献数量、开放获取、引用习惯、引证时间对论文被引频次的影响,而针对各因素的综合研究相对较少,且已有研究发现不同学科针对被引频次影响因素的研究结果并不一致。另外,既往研究针对部分影响因素(如论文类型、重点号专题等)的挖掘不够,研究深度有待提升。因此,本研究在“中国科技期刊卓越行动计划”[10]的支持下,聚焦预防医学类科技论文,通过人工补录论文的相关信息,深入细致挖掘论文被引频次的影响因素,探讨其内部规律,以期为全面认识和深入研究这一指标提供参考。
1 数据来源与研究方法
1.1 检索策略
将中国生物医学期刊引文数据库(Chinese Medical Citation Index,CMCI)和中国科技论文与引文数据库(Chinese Scientific and Technical Papers and Citation Database,CSTPCD)作为本研究的文献检索来源。通过CMCI检索2014—2017年发表在《中华预防医学杂志》的所有文献,收集文题、作者、单位、关键词数量、出版年、卷、期、起始页、终止页、版面数、参考文献数、基金资助等信息[11]。由中国科学技术信息研究所(以下简称“中信所”)通过CJCRCD采集上述文献于2014—2018年被中国科技核心期刊引用的相关数据,主要包括引用论文标题、引用作者、引用期刊、引用年卷期页码、被引题目、被引作者、被引期刊名称、被引期刊年卷期页码等。《中华预防医学杂志》作为预防医学领域的代表性期刊之一,是面向预防医学一级学科的综合类科技期刊,主要报道方向涵盖了传染病流行病学、慢性非传染病流行病学等10多个相关的子学科,在预防医学领域具有较强的代表性。
1.2 数据处理
检索得到的文献信息及中信所提供的文献引用数据经整理后录入Excel 2016软件,计算被引频次、作者数量、标题和摘要字数等数据。人工查阅相应文献,补充参考文献数量、文献类型(栏目)、基金类型、研究类型、学科分类和重点号等信息,其中文献类型遵循期刊的栏目设置。基金类型分为国家级、省部级、机构、无4类,多个基金资助项目以最高级别的项目为准。研究类型包括个案调查、病例系列报告、横断面研究、生态学研究,病例对照研究、队列研究、疾病监测(类似于采用国家监测数据的文章)、人群实验(包括现场实验、社区干预实验、临床试验)、动物实验(包括体外细胞实验)、理论与方法学研究(包括数据统计学方法的研究、疾病发生与流行概率的预测预警研究等)和其他。学科分类参考国家自然科学基金预防医学分支学科,主要包括传染病、环境卫生、职业卫生、营养(包括食品卫生)、妇幼保健(儿童青少年卫生)、卫生毒理、慢性非传染病及其他。剔除非研究性文献后,例如消息、新闻、网上资源导航、纪念专栏、人物述林、文献速览、消息、会议纪要、读者来信等栏目,纳入论著、短篇论著、案例报道、现场调查、标准/指南/共识、方法学介绍、基础研究、基金项目介绍、讲座、经验交流、检验技术、系统综述、Meta分析、综述、述评、学术争鸣、讲座、青年学者笔谈、总编随笔等栏目的文献。
1.3 质量控制
中信所提供的引用数据中,部分施引杂志将中文参考文献翻译成英文后引用,因此,为了准确计算被引论文的被引频次,将数据库中112条英文标题数据修改为中文标题;同时剔除8条有问题的引用数据(6条为非《中华预防医学杂志》文章、2条为非2014—2017年发表的文章)。标题字数和摘要字数均采用Excel 2016的len函数计算。所有数据由同一个人统一判断、录用,若有异议,经课题组商讨后确定。
1.4 统计学分析
采用Excel 2016建立数据库,采用SAS 9.4 进行统计学分析。
(1) 统计描述。经Kolmogorov-Smirnov检验,被引频次不服从正态分布,因此采用中位数(第25百分位数,第75百分位数)[M(P25,P75)]表示。分类变量采用构成比表示。根据摘要字数、标题字数、作者数量、参考文献数、论文版面数的四分位数,分别将论文分为Q1—Q4组(摘要字数分别为<209字、209—588字、589—862字、>862字;标题字数分别为<21字、21—26字、27—32字、>32字;作者数量分别为<4人、4—6人、7—9人、>9人;参考文献数分别为<14条、14—17条、18—23条、>23条;论文版面数分别为<3面、3—4面、5—6面、>6面);根据被引频次,将论文分为0次、1—4次、5—9次、≥10次4组。
(2) 影响因素分析。①单因素分析:采用Cochran-Mantel-Haenszel检验分析不同特征论文的被引情况差异。②多因素分析。模型1:以论文被引频次作为因变量,以发表年份、发表期数、论文版面数、标题字数、摘要字数、作者数量、参考文献数、重点号、基金资助、栏目、学科分类为自变量,调整研究类型后,采用广义线性模型中的负二项回归模型分析被引频次的影响因素。模型2:以论文被引频次的有序多分类形式作为因变量,以发表年份、发表期数、论文版面数、标题字数、摘要字数、作者数量、参考文献数、重点号、基金资助、栏目、学科分类为自变量,调整研究类型后,采用多因素有序多分类Logistic回归模型分析被引频次的影响因素。经似然比检验,因变量各类别所对应的累计概率曲线满足平行性假设。各模型的变量赋值情况见表1。
表1 统计模型的因变量和各自变量的定义及赋值说明
序号 | 因素 | 变量名 | 赋值说明 |
1 | 被引频次 | y |
0次=1、1~4次=2、5~9次=3、≥10次=4(多因素有序多分类Logistic回归模型); 计数资料(负二项回归模型) |
2 | 发表年份 | x1 | 2014年=1,2015年=2,2016年=3,2017年=4;以虚拟变量纳入模型 |
3 | 发表期数 | x2 | 1~4期=1;5~8期=2;9~12期=3 |
4 | 论文版面数 | x3 | <3面=1;3~4面=2;5~6面=3;>6面=4 |
5 | 标题字数 | x4 | <21字=1;21~26字=2;27~32字=3;>32字=4 |
6 | 摘要字数 | x5 | <209字=1;209~588字=2;589~862字=3;>862字=4 |
7 | 关键词数 | x6 | ≤2个=1;3个=2;4个=3;5个=4;≥6个=5 |
8 | 作者数量 | x7 | <4人=1;4~6人=2;7~9人=3;>9人=4 |
9 | 参考文献数 | x8 | <14篇=1;14~17篇=2;18~23篇=3;>23篇=4 |
10 | 重点号专题 | x9 | 否=0;是=1 |
11 | 基金资助 | x10 | 包括无、机构级、省部级、国家级4类,以虚拟变量纳入模型 |
12 | 论文类型 | x11 | 包括述评类、综述类、论著类文章3类,以虚拟变量纳入模型;论著类文章包括论著、短篇论著、检验技术、基础研究、现场调查5个栏目;综述类文章包括综述、Meta分析、系统综述、标准/指南/共识4个栏目,由于标准/指南/共识较少(9篇),因此一并合并至该类;述评类文章包括述评、专家笔谈、总编随笔、经验交流、青年学者笔谈、方法学介绍、案例报道、基金项目介绍、学术争鸣、讲座10个栏目 |
13 | 研究类型 | x12 | 包括描述性研究(个案调查、病例系列报告、横断面研究、生态学研究)、分析性研究(病例对照研究、队列研究)、实验研究(人群实验、动物实验)、疾病监测、理论与方法学研究(包括数据统计学方法的研究、疾病发生与流行概率的预测预警研究等)及其他;以虚拟变量纳入模型 |
14 | 学科分类 | x13 | 包括传染病流行病学、慢性非传染病流行病学、卫生综合[环境卫生、职业卫生、营养(食品卫生)、妇幼保健(儿童青少年卫生)、卫生毒理]、其他 |
2 结果与分析
2.1 发文一般情况
《中华预防医学杂志》在2014—2017年共发文929篇,4个年度分别发文253篇(27.23%)、231篇(24.87%)、224篇(24.11%)、221篇(23.79%)。总论文版面数为3564面,篇均版面数为3.84面。论文版面数、关键词数、参考文献数、摘要字数、标题字数和作者数量的M(P25,P75)分别为4(3,5)面、4(3,5)个、17(14,23)篇、588(209,862)字、26(21,31)字和6(4,8)人;基金资助文章数量的占比为78.36%(728篇),重点号专题文章占17.01%(158篇)。
2.2 发文被引频次的一般情况
929篇论文的总被引频次为3861次,被引频次的M(P25,P75)为2(1,5)次,篇均被引4.15次;被引频次为0次、1—4次、5—9次、≥10次的论文数量占比分别为17.33%(161篇)、52.85%(491篇)、19.48%(181篇)、10.34%(96篇)。
2.3 论文被引频次的单因素分析
被引频次的单因素分析结果见表2。由表2可知,发表年份(发表期数)较早、论文版面数较多、论著类、重点号、摘要字数较多、作者数量较多及公共卫生监测相关论文的被引用率较高(P值均<0.05);而具有不同的基金资助情况、关键词数、参考文献数、标题字数的论文被引用情况差异没有统计学意义(P值均>0.05)。
表2 《中华预防医学杂志》2014—2017年不同特征论文的被引情况比较
特征 | 论文数量 /篇(占比 /%) | 论文数量 /篇(占比 /%) | 统计值 | P值 | |||
0次 | 1~4次 | 5~9次 | ≥10次 | ||||
发表年份 | 43.89 | <0.001 | |||||
2014年 | 253(27.23) | 33(13.04) | 117(46.25) | 62(24.51) | 41(16.21) | ||
2015年 | 231(24.87) | 31(13.42) | 121(52.38) | 53(22.94) | 26(11.26) | ||
2016年 | 224(24.11) | 39(17.41) | 123(51.91) | 42(18.75) | 20(8.93) | ||
2017年 | 221(23.79) | 58(26.24) | 130(58.82) | 24(10.86) | 9(4.07) | ||
发表期数 | 17.05 | <0.001 | |||||
1~4期 | 304(32.72) | 49(16.12) | 145(47.70) | 60(19.74) | 50(16.45) | ||
5~8期 | 321(34.56) | 53(16.51) | 171(53.27) | 64(19.94) | 33(10.28) | ||
9~12期 | 304(32.72) | 59(19.41) | 175(57.57) | 57(18.75) | 13(4.28) | ||
论文版面数 | 16.56 | <0.001 | |||||
<3面 | 177(19.05) | 42(23.73) | 100(56.50) | 27(15.25) | 8(4.52) | ||
3~4面 | 463(49.84) | 81(17.49) | 238(51.40) | 92(19.87) | 52(11.23) | ||
5~6面 | 270(29.06) | 37(17.70) | 144(53.33) | 58(21.48) | 31(11.48) | ||
>6面 | 19(2.05) | 1(5.26) | 9(47.37) | 4(21.05) | 5(26.32) | ||
基金资助 | 3.64 | 0.304 | |||||
国家级 | 524(56.40) | 91(17.37) | 279(53.24) | 97(18.51) | 57(10.88) | ||
机构级 | 43(4.63) | 9(20.93) | 26(60.47) | 7(16.28) | 1(2.33) | ||
省部级 | 161(17.33) | 28(17.39) | 85(52.80) | 31(19.25) | 17(10.56) | ||
无 | 201(21.64) | 33(16.42) | 101(50.25) | 46(22.89) | 21(10.45) | ||
关键词数 | 1.40 | 0.237 | |||||
≤2个 | 47(5.03) | 9(19.15) | 22(46.81) | 11(23.40) | 5(10.64) | ||
3个 | 251(26.84) | 50(19.92) | 139(55.38) | 40(15.94) | 22(8.76) | ||
4个 | 341(36.47) | 61(17.89) | 176(51.61) | 68(19.94) | 36(10.56) | ||
5个 | 239(25.56) | 31(12.97) | 128(53.56) | 54(22.59) | 26(10.88) | ||
≥6个 | 57(6.10) | 10(19.61) | 26(50.98) | 8(15.69) | 7(13.72) | ||
参考文献数 | 0.15 | 0.699 | |||||
<14条 | 223(24.00) | 46(20.63) | 110(49.33) | 46(20.63) | 21(9.42) | ||
14~17条 | 254(27.24) | 38(14.96) | 137(53.94) | 48(18.90) | 31(12.20) | ||
18~23条 | 243(26.16) | 36(14.81) | 132(54.32) | 49(20.16) | 26(10.70) | ||
>23条 | 209(22.50) | 41(19.62) | 112(53.59) | 38(18.18) | 18(8.61) | ||
论文类型 | 9.88 | 0.020 | |||||
标准/指南/共识 | 9(0.97) | 3(33.33) | 2(22.22) | 1(11.11) | 3(33.33) | ||
述评类 | 119(12.81) | 22(18.49) | 62(52.10) | 24(20.17) | 11(9.24) | ||
论著类 | 707(76.10) | 109(15.42) | 380(53.75) | 141(19.94) | 77(10.89) | ||
综述类 | 94(10.12) | 27(28.72) | 47(50.00) | 15(15.96) | 5(5.32) | ||
重点号专题 | 8.16 | 0.004 | |||||
否 | 771(82.99) | 151(19.58) | 399(51.75) | 143(18.55) | 78(10.12) | ||
是 | 158(17.01) | 10(6.33) | 92(58.23) | 38(24.05) | 18(11.39) | ||
摘要字数 | 19.11 | <0.001 | |||||
<209字 | 231(24.87) | 54(23.38) | 130(56.28) | 32(13.85) | 15(6.49) | ||
209~588字 | 235(25.30) | 46(19.57) | 114(48.51) | 53(22.55) | 22(9.36) | ||
589~862字 | 231(24.87) | 32(13.85) | 129(55.84) | 43(18.61) | 27(11.69) | ||
>862字 | 232(24.96) | 29(12.50) | 118(50.86) | 53(22.84) | 32(13.79) | ||
标题字数 | 2.02 | 0.155 | |||||
<21字 | 204(21.96) | 46(22.55) | 103(50.49) | 38(18.63) | 17(8.33) | ||
21~26字 | 308(33.15) | 56(18.18) | 160(51.95) | 57(18.51) | 35(11.36) | ||
27~32字 | 237(25.51) | 32(13.50) | 124(52.32) | 54(22.78) | 27(11.39) | ||
>32字 | 180(19.38) | 27(15.00) | 104(57.78) | 32(17.78) | 17(9.44) | ||
作者数量 | 13.95 | <0.001 | |||||
<4人 | 202(21.74) | 45(22.28) | 111(54.95) | 30(14.85) | 16(7.92) | ||
4~6人 | 311(33.48) | 60(19.29) | 163(52.41) | 56(18.01) | 32(10.29) | ||
7~9人 | 278(29.92) | 41(14.75) | 148(53.24) | 60(21.58) | 29(10.43) | ||
>9人 | 138(14.86) | 15(10.87) | 69(50.00) | 35(25.36) | 19(13.77) | ||
研究类型 | 60.38 | <0.001 | |||||
分析性研究 | 105(11.30) | 13(12.38) | 58(55.24) | 26(24.76) | 8(7.62) | ||
公共卫生监测 | 120(12.92) | 7(5.83) | 56(46.67) | 22(18.33) | 35(29.17) | ||
理论与方法学研究 | 58(6.24) | 13(22.41) | 27(46.55) | 12(20.69) | 6(10.34) | ||
描述性研究 | 305(32.83) | 44(14.43) | 176(57.70) | 56(18.36) | 29(9.51) | ||
实验研究 | 82(8.83) | 27(32.93) | 42(51.22) | 13(15.85) | 0(0.00) | ||
其他 | 259(27.88) | 57(22.01) | 132(50.97) | 52(20.08) | 18(6.95) | ||
学科分类 | 40.67 | <0.001 | |||||
传染病流行病学 | 329(35.41) | 44(13.37) | 175(53.19) | 75(22.8) | 35(10.64) | ||
非传染病流行病学 | 177(19.05) | 24(13.56) | 75(42.37) | 44(24.86) | 34(19.21) | ||
卫生综合 | 314(33.80) | 66(21.02) | 176(56.05) | 48(15.29) | 24(7.64) | ||
其他 | 109(11.73) | 27(24.77) | 65(59.63) | 14(12.84) | 3(2.75) | ||
合计 | 929(100.00) | 161(17.33) | 491(52.85) | 181(19.48) | 96(10.34) |
注:论著类文章包括论著、短篇论著、检验技术、基础研究、现场调查5个栏目的论文;综述类文章包括综述、Meta分析、系统综述、标准/指南/共识4个栏目的论文,由于标准/指南/共识较少(9篇),因此一并合并至该类;述评类文章包括述评、专家笔谈、总编随笔、经验交流、青年学者笔谈、方法学介绍、案例报道、基金项目介绍、学术争鸣、讲座10个栏目的论文。描述性研究包括个案调查、病例系列报告、横断面研究、生态学研究;分析性研究包括病例对照研究、队列研究;实验研究包括人群实验研究、动物实验研究;理论与方法学研究包括数据统计学方法的研究、疾病发生与流行概率的预测预警研究);卫生综合包括环境卫生、职业卫生、营养(食品卫生)、妇幼保健(儿童青少年卫生)、卫生毒理。
2.4 论文被引频次的多因素负二项回归模型分析
多因素负二项回归模型分析结果(表3)显示,调整研究类型后,发表时间、论文版面数、是否为重点号专题、作者数量和栏目均是被引频次的影响因素。与发表时间为2014年的论文相比,2015年、2016年、2017年发表论文的被引频次均较低[eβ(95%CI)值分别为0.742(0.611—0.902)、0.600(0.494—0.728)、0.391(0.318—0.481)];与1—4期论文相比,5—8期、9—12期论文被引频次较低[eβ(95%CI)值分别为0.679(0.578—0.800)、0.514(0.432—0.611)]。与论文版面数为3面、非重点号专题、综述类、其他学科论文相比,论文版面数为3—4面、5—6面、>6面、重点号、述评类、传染病、慢性非传染病流行病学和卫生综合学科论文被引频次均较高[eβ(95%CI)值分别为1.979(1.578—2.482)、2.254(1.707—2.976)、3.230(1.997—5.225)、1.333(1.098—1.617)、1.930(1.429—2.608)、2.046(1.610—2.600)、2.175(1.672—2.828)、1.400(1.097—1.787)]。
表3 预防医学类科技论文被引频次影响因素的多因素负二项回归模型分析
因素 | β值 | SE值 | Wald χ2值 | eβ(95%CI)值 | P值 |
常数项 | 0.7498 | 0.2353 | 0.001 | ||
发表时间 | |||||
2014年 | 1.000 | ||||
2015年 | -0.2983 | 0.0995 | 8.99 | 0.742(0.611~0.902) | 0.003 |
2016年 | -0.5107 | 0.0988 | 26.70 | 0.600(0.494~0.728) | <0.001 |
2017年 | -0.9378 | 0.1060 | 78.35 | 0.391(0.318~0.481) | <0.001 |
发表期数 | |||||
1~4期 | 1.000 | ||||
5~8期 | -0.3862 | 0.0830 | 21.65 | 0.679(0.578~0.800) | <0.001 |
9~12期 | -0.6662 | 0.0884 | 56.85 | 0.514(0.432~0.611) | <0.001 |
论文版面数 | |||||
<3面 | 1.000 | ||||
3~4面 | 0.6827 | 0.1155 | 34.92 | 1.979(1.578~2.482) | <0.001 |
5~6面 | 0.8126 | 0.1418 | 32.85 | 2.254(1.707~2.976) | <0.001 |
>6面 | 1.1726 | 0.2453 | 22.84 | 3.230(1.997~5.225) | <0.001 |
重点号 | |||||
否 | 1.000 | ||||
是 | 0.2873 | 0.0987 | 8.47 | 1.333(1.098~1.617) | 0.004 |
论文类型 | |||||
综述类 | 1.000 | ||||
论著类 | -0.1374 | 0.1854 | 0.55 | 0.872(0.606~1.254) | 0.459 |
述评类 | 0.6577 | 0.1535 | 18.37 | 1.930(1.429~2.608) | <0.001 |
学科分类 | |||||
其他 | 1.000 | ||||
传染病流行病学 | 0.7161 | 0.1222 | 34.35 | 2.046(1.610~2.600) | <0.001 |
非传染病流行病学 | 0.7769 | 0.134 | 33.61 | 2.175(1.672~2.828) | <0.001 |
卫生综合 | 0.3365 | 0.1245 | 7.31 | 1.400(1.097~1.787) | 0.007 |
2.5 论文被引频次的多因素有序多分类Logistic回归模型分析
多因素Logistic回归模型分析结果(表4)显示,调整研究类型后,发表时间、论文版面数、是否为重点号文章、作者数量、栏目和学科分类均是被引频次的影响因素。与发表时间为2014年的论文相比,2015年、2016年、2017年发表的论文被引频次均较低[OR(95%CI)值分别为0.612(0.418—0.896)、0.374(0.255—0.548)、0.209(0.140—0.313)];与1—4期论文相比,5—8期、9—12期论文的被引频次较低[OR(95%CI)值分别为0.553(0.403—0.758)、0.419(0.301—0.583)]。与论文版面数为3面、非重点号专题、作者数量<4人、综述类、其他学科论文相比,论文版面数为3—4面、5—6面、>6面、重点号、作者数量>9人、述评类、传染病和慢性非传染病流行病学学科论文的被引频次均较高[OR(95%CI)值分别为2.098(1.358—3.242)、2.707(1.588—4.614)、5.692(2.126—15.240)、1.868(1.283—2.722)、1.691(1.012—2.825)、2.980(1.667—5.328)、2.617(1.676—4.088)、3.717(2.256—6.123)]。根据多因素Logistic回归模型和负二项回归模型分析结果,除作者数量外,发表年份、发表期数、论文版面数、重点号、论文类型和学科分类等因素的研究结果均较为稳定。
表4 预防医学类科技论文被引频次影响因素的多因素有序多分类Logistic回归模型分析
因素 | β值 | SE值 | Wald χ2值 | OR(95%CI)值 | P值 |
常数项 | |||||
1 | -3.6078 | 0.4672 | 59.6372 | <0.001 | |
2 | -2.0809 | 0.4564 | 20.7917 | <0.001 | |
3 | 0.8161 | 0.4509 | 3.2756 | 0.070 | |
发表年份 | |||||
2014年 | 1.000 | ||||
2015年 | -0.4903 | 0.1943 | 6.3643 | 0.612(0.418~0.896) | 0.0116 |
2016年 | -0.9837 | 0.1948 | 25.5084 | 0.374(0.255~0.548) | <0.001 |
2017年 | -1.5644 | 0.205 | 58.2192 | 0.209(0.140~0.313) | <0.001 |
发表期数 | |||||
1~4期 | 1.000 | ||||
5~8期 | -0.5922 | 0.161 | 13.5233 | 0.553(0.403~0.758) | <0.001 |
9~12期 | -0.8704 | 0.1692 | 26.4584 | 0.419(0.301~0.583) | <0.001 |
论文版面数 | |||||
<3面 | 1.000 | ||||
3~4面 | 0.7410 | 0.222 | 11.1448 | 2.098(1.358~3.242) | <0.001 |
5~6面 | 0.9957 | 0.2721 | 13.3870 | 2.707(1.588~4.614) | <0.001 |
>6面 | 1.7390 | 0.5025 | 11.9747 | 5.692(2.126~15.240) | <0.001 |
重点号 | |||||
否 | 1.000 | ||||
是 | 0.6251 | 0.1919 | 10.6103 | 1.868(1.283~2.722) | <0.001 |
作者数量 | |||||
<4人 | 1.000 | ||||
4~6人 | 0.1831 | 0.2164 | 0.7155 | 1.201(0.786~1.835) | 0.3976 |
7~9人 | 0.2163 | 0.2333 | 0.8595 | 1.242(0.786~1.961) | 0.3539 |
>9人 | 0.5251 | 0.2620 | 4.0160 | 1.691(1.012~2.825) | 0.0451 |
栏目 | |||||
综述类 | 1.000 | ||||
论著类 | 0.2414 | 0.3602 | 0.4490 | 1.273(0.6285~2.5793) | 0.5028 |
述评类 | 1.0919 | 0.2965 | 13.5640 | 2.980(1.667~5.328) | <0.001 |
学科分类 | |||||
其他 | |||||
传染病流行病学 | 0.9622 | 0.2275 | 17.8830 | 2.617(1.676~4.088) | <0.001 |
非传染病流行病学 | 1.3128 | 0.2547 | 26.5608 | 3.717(2.256~6.123) | <0.001 |
卫生综合 | 0.2949 | 0.2279 | 1.6753 | 1.343(0.859~2.099) | 0.196 |
3 讨论与结论
3.1 被引频次的分布规律
在研究被引频次的影响因素时,很多统计模型对数据分布有相应的要求,因此只有在明确被引频次的分布规律之后,才能采用适合的统计模型进行下一步分析。既往研究中,毛国敏等[12]和汪跃春等[13]分别采用线性回归拟合及非线性迭代法对被引频次进行研究,结果发现论文的被引概率和被引频次呈幂律分布,即随着被引频次的增加,被引概率迅速下降。由图1可知,被引频次的分布情况呈现单中心非对称的长尾特征,近90%论文的被引频次分布在0—10次之间。另外,论文的被引频次均为非负离散整数,基本符合Poisson分布的3个基本条件(普通性、独立性、平稳性),同时数据也具有过离散性[方差(35.08)>均值(4.16)],因此,本研究假设被引频次符合过离散的Poisson分布。为了校正被引频次数据的过离散性,本研究采用广义线性模型中的负二项回归模型分析被引频次的影响因素,同时采用多因素有序多分类Logistic回归对研究结果进行复核。

图1 《中华预防医学杂志》2014—2017年所刊登论文被引频次的频数分布
3.2 被引频次的影响因素
(1) 发表时间和期数。一般来说,由于论文发表时间越早,被阅读、下载和引用的机会越多,反之则越少。本研究结果显示,与发表时间为2014年论文相比,2015—2017年发表的论文被引频次均较低;与同年发表在1—4期的论文相比,发表在5—8期、9—12期的论文被引频次均较低,基本符合上述规律。程小娟等[14]和胡瑶等[15]均认为论文被引频次与其发表年限有关,发表年限越长,被引频次越高;盖双双等[16]认为,同年不同月份发表的论文被引频次在发表后前几年内明显不同,早发表论文的被引频次高于晚发表论文。上述研究的结论与本研究结论基本一致。这提示我们应正确对待优先数字出版,筛选学术质量高、内容新颖的优秀论文,提前在网络或数据库公开,加快论文的网络传播速度,进而提高期刊的影响力。
(2) 论文版面数和摘要字数。论文在被引用时,必然经历论文被引用者发现、获取、阅读和引用4 个阶段。被发现、获取和阅读是被引用的先决条件,也就是说,论文越容易被发现, 被引用的可能性就越大;论文全文越容易被获取, 被引用的可能性也越大[17]。本研究同样发现,论文长度越长,被引频次越高;但仅在单因素分析时,发现摘要字数与被引频次相关,而在多因素分析中均未发现两者之间的关联。
(3) 重点号专题。重点号选题策划是提高刊出论文质量和期刊可读性的最有效途径之一,而被引频次可作为评价重点号策划质量的有效指标之一。目前国内关于重点号文章的被引频次相关研究较少,有学者通过对《中华儿科杂志》重点号文章的被引情况进行分析,发现重点号文章的被引频次高于自由来稿[18]。不过上述研究仅对2007—2008年的重点号文章进行研究,且没有调整其他相关因素对被引频次带来的影响。本研究以4个年度的重点号文章为对象,调整其他相关因素后,得出与上述研究一致的结论。提示《中华预防医学杂志》在2014—2017年组织的重点号质量较高,今后应该再接再厉,总结经验,继续策划组织高质量重点号,提高期刊影响力。
(4) 基金资助。基金资助论文来源于国家政府部门或机构组织提供科研经费开展科学研究的项目所取得的成果,因此基金论文可能具有较高的学术价值。关于基金论文与被引频次关系的研究较多,但研究结论尚不一致。本研究认为基金资助与论文被引频次无关联,与俞立平等[19]和沈锡宾等[20]的研究结果一致。可能的原因包括:基金资助的论文大多是基础类研究(如卫生毒理方面的基础类研究),而期刊的读者对该类论文的关注度较低;被引频次较高的述评类文章,一般较少得到基金项目的支持;受SCI推崇现象的影响,基金项目的核心研究成果大多发表在国外知名期刊,在国内期刊仅发表与项目内容不相符的论文。
(5) 作者数量。目前关于作者数量与被引频次的研究相对较多,有学者认为期刊的作者数量与被引频次呈正相关[21],也有研究发现4—6个作者的论文被引率和篇均被引频次最高,作者数量多于7个的论文篇均被引频次反而低于4—6个作者的论文[22]。本研究结果显示,作者数量对被引频次的影响较弱,且不稳定,提示该因素对被引频次的影响规律较为复杂,尚需进一步研究探讨。
(6) 论文栏目和学科分类。有研究指出,综述和述评类文章的被引高于应用和实验研究类[23]。本研究发现,述评类文章的被引频次高于综述类和论著类,与沈锡宾等[20]的结论一致。这说明《中华预防医学杂志》组织约写的述评、专家笔谈、争鸣类论文有较高的学术影响力,而综述类文献表现一般,这与国外综述类文献具有较高的被引频次有所不同。从学科分类看,各学科论文的被引频次存在一定的差异,传染病流行病学作为预防医学/公共卫生领域的传统学科,依然是研究的热点,被引频次较高;慢性非传染病学科论文的被引频次次之,而卫生综合及预防医学其他学科论文的被引频次不太理想。
(7) 标题字数、关键词数和参考文献数。本研究未发现标题字数、关键词数和参考文献数与被引频次之间存在关联,而简琳等[24]认为论文标题字数对被引频次没有明显的影响, 而关键词数对被引频次具有明显的影响。这说明标题字数和参考文献数可能与被引频次没有关联,但关键词数对被引频次的影响还需进一步研究。
3.3 创新性和局限性
(1) 创新性。首先,目前大多数相关研究的被引频次数据来源于万方知识服务平台、中国知网等数据库,而本研究的被引频次数据来源于中信所的CSTPCD和《中国科技期刊引证报告》(Chinese S&T Journal Citation Reports,CJCR)。其次,已有研究大多对数据库导出变量数据进行分析,针对部分影响因素(如论文类型、重点号专题等)的研究深度不够。而本研究以预防医学类科技论文为研究对象,通过人工补录论文的相关信息,深入细致地挖掘重点号专题、论文栏目、学科分类和研究类型等因素对论文被引频次的影响。最后,基于被引频次数据的分布特点,本研究采用广义线性模型中的负二项回归模型进行分析,能够校正数据的过离散性;同时采用多因素有序多分类Logistic回归模型对负二项回归模型的结果进行复核,以考察分析结果的稳健性。
(2) 局限性。①论文来源期刊较为单一,结论外推时需谨慎。②针对重点号专题进行分析时,只纳入了重点号的论著类文章,纳入其他类型文章后研究结论是否改变尚需进一步研究。不过本研究结果也显示综述类和论著类文章被引频次差异无统计学意义,因此可以认为即使纳入了其他类型重点号文章,也可能不会改变研究结论。③所有论文的被引时间均在5年内,随着被引时间的延长,发表时间对被引频次的影响可能会有所减弱,相关内容有待进一步探讨。④本研究由于通过人工补录信息,不可能像那些采用数据库导出数据进行分析的研究那样获得数以万计的样本量[25]。不过,鉴于研究模型纳入了12个分析变量,本研究929篇文献的样本量也完全满足EPV(Event per Variable)的要求,从而保证了研究结论的可靠性。
4 结语
作为国际公认的期刊评价指标之一,被引频次已被广泛用于评价论文、期刊、专利、学科等的科学贡献和学术影响力。目前国内期刊界对被引频次的研究不够系统,且已有的研究结论尚未完全达成一致。因此,对被引频次的影响因素进行深入研究,科学全面认识被引频次的客观规律具有非常重要的现实意义。本研究认为,论文的学术质量应该是被引频次的核心影响因素,发表时间、论文版面数、重点号专题、论文栏目、学科分类及作者数量等也可能对被引频次产生影响,而基金资助、摘要字数、标题字数、参考文献数等可能与被引频次无关联。
本研究通过人工补录信息,对部分影响因素进行了细致的挖掘分析,但仍未找到一个(些)合适的变量来表征论文的科研学术质量,也无法定量研究学术质量与被引频次的关联。因此,在未来的研究中,应设法寻找一个(些)合适的学术质量指示变量,或者利用有效的统计模型(比如结构方程模型等)分析学术质量的潜在效应,从而更加全面地研究被引频次的影响因素及客观规律,为国内期刊的发展提供坚实的科学支撑。
参考文献
[1]Oermann MH,Nicoll LH,Ashton KS等.关键词:护理文献,引文模式,掠夺性来源,影响 护理奖学金,2020,52(3):311-319.
[2]Robson BJ,MousquèsA.预测环境建模论文的引用次数[EB / OL].[2020-05-01].http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.671.2626&rep=rep1&type=pdf.
[3]Borsuk RM,Budden AE,Leimu R等.关键词:性别,民族语言,作者人数,生态学,引文率 开放生态学报,2014,2(1):25-28.
[4]Cano V,Lind N C.十种经典著作的引文生命周期[J].计算机应用,2006,26(6):1275-1279 Scientometrics,1991,22(2):297-312.
[5]袭继红,韩玺,吴倩倩.国际合作对论文影响力提升的作用研究[J].情报杂志,2015,34(1):92-95,37.
[6]姜磊,林德明.参考文献对论文被引频次的影响研究[J].科研管理,2015,36(1):121-126.
[7]付雅静,钱俊龙.关键词:开放获取,科技期刊,影响 中国科技期刊研究,2014,25(9):1117-1120.
[8]杨利军,万小渝.关键词:情报学为例 情报科学,2012,30(7):1093-1096.
[9]付中静.关键词:不同引证时间窗口 情报杂志,2017,36(7):128-133.
[10]中国科技期刊卓越行动计划办公室.关于下达中国科技期刊卓越行动计划进入选项目的通知[EB / OL].[2020-05-01] .https://www.cast.org.cn/art/2019/11/25/art_458_105664.html.
[11]王明洁.《中国生物医学期刊引文数据库》检索与应用[J].中国生物医学杂志 中华医学图书情报杂志,2006,15(4):72-74.
[12]毛国敏,蒋知瑞,任蕾,等.关键词:期刊论文被引频次的幂律分布研究 中国科技期刊研究,2014,25(2):293-298,307.
[13]汪跃春,史新和.期刊论文被引频次分布拟合与分析[J].情报学报,2012,31(2):196-203.
[14]程小娟,杨晶晶.关键词:Scopus数据库,引文评价,新指标,可行性,探讨 图书情报工作,2012,56(10):6-9,34.
[15]胡瑶,王惠文,关蓉.基于ESI科技论文评价与比较分析:以北京航空航天大学为例[J].北京航空航天大学学报(社会科学版),2013,26(2):116-120.
[16]盖双双,刘雪立,张诗乐,等.同年不同月份发表的论文被引频次的重置规律:兼谈优先数字出版的价值和局限性[J].编辑学报,2014,26(3):210-214.
[17]Hudson J.被您经营的公司所知名:引文还是偶然?[J].Scientometrics,2007,71(2):231-238.
[18]关卫屏,游苏宁,江澜.加强重点号选题策划提升科技期刊学术影响力:以《中华儿科杂志》重点号文章被引次数分析为例[J].中国科技期刊研究,2012,23(4):663-667.
[19]俞立平,潘云涛,武夷山.学术期刊来源指标与影响力关系的实证研究[J].科研管理,2010,31(6):173-179.
[20]沉锡宾,沈志伟,侯鉴君等.《中华内科杂志》被引频次的影响因素分析[J].中华内科杂志,2013,52(2):133-138.
[21]王海涛,谭宗颖,陈挺.论文被引频次影响因素研究:兼论被引频次评估科研质量的合理性[J].科学学研究,2016,34(2):171-177.
[22]刘雪立,徐刚珍,方红玲,等.如何提高医学期刊的影响因素:从《眼科新进展》论文分类被引情况谈起[J].中国科技期刊研究,2008,19(4):659-661.
[23]李晓萍,姜瑾秋,王丽.关键词:期刊影响因子和总被引频次的影响因素分析 深圳中西医结合杂志,2007,17(4):260-261.
[24]简琳,何静,周剑.论文被引的文本因素分析:多学科视角[J].图书情报工作,2011,55(20):32-35.
[25]肖学斌,柴艳菊.论文的相关参数与被引频次的关系研究[J].计算机应用,2006,26(6):1275-1279 现代图书情报技术,2016(6):46-53.