【摘 要】文章以中国科学引文数据库(CSCD)的中文核心库科技期刊及其发表的论文为研究样本,运用因子分析法对中文科技期刊原创指数进行实证研究。选取10个衡量期刊原创水平的指数(内核指数、黏性指数、贡献指数、特色指数、专业指数、全媒体指数、数字化指数、首发指数、国际作者指数、国际编纂指数),使用主成分分析法提取4个原创因子(原创内容因子、品牌特质因子、媒体传播因子、国际化因子),构建具有3级指标的中文科技期刊原创指数体系。研究表明,中文科技期刊需以原创为本,培育品牌意识,治理学术乱象,增强核心竞争力,打造具有原创力的出版物,以此建立良好的原创生态圈。
【关键词】原创指数;因子分析;实证研究;科技期刊
新时代背景下“万众创新”已经逐渐形成新态势,原创是学术期刊顺应新浪潮的立足之本[1],也是培育世界一流期刊的原始驱动力。中文科技期刊的原创性是一本学术期刊在知名度、学术价值、信誉度、稿件质量、整体形象、服务水平等方面的综合体现,原创出版物是出版单位文化的标志,是作者、读者和其他用户对该期刊的一种自然认同,并且具有本学科和领域的研究特点、特色和特征[2]。
近年来,我国学术期刊发表论文的数量和质量均显著提高,期刊的影响因子和影响力在全球范围内不断提升,对海外作者的吸引力逐步增强。但是学术期刊近期在原创出版上出现了诸多问题[3],例如部分期刊学术失范[4],不顾稿件内容质量,收取高额费用谋取私利,过度互引、自引等,或在发论文时忽略了文献的原创性,被检举后大面积撤稿,严重影响了学术声誉,内部管理模式比较松散,缺乏完善的内部控制体系,尚未形成相辅相成、互相促进的原创出版生态圈。2019年7月1日正式实施的《学术出版规范期刊学术不端行为界定》(CY/T174—2019)为学术不端行为的判断和处理提供了行业标准,彰显了对学术期刊原创问题进行研究的重要性。目前,学者们对学术期刊原创出版问题的研究主要是以期刊被引频次[5]和学术影响力进行综合评价[6],以评价指标的确立[7]和方法选择为主[8],有理论根据的定性研究和规范原创出版的实证研究较少,缺乏以大数据作为支撑的研究,尚未形成对学术生态发展有推动力的原创出版理论。
鉴于此,在全媒体时代中文科技期刊如何培育原创意识和环境[9]、如何提升创新能力等问题亟待解决[10]。本文研究我国中文科技期刊原创出版理论与框架,试图构建中文科技期刊原创指数体系,弥补对学术期刊较少进行原创评价和实证研究的不足,以期为我国学术期刊创造良好的原创生态环境。
一、中文科技期刊原创指数的研究设计
1.样本选择和数据来源
本研究的样本数据来自中国知网、CNKI科研诚信管理系统、《中国科学引文数据库(CSCD)来源期刊列表(2017—2018年度)》,以及相关期刊网站、微信公众平台、移动客户端等。
首先,在中国知网(CNKI)“期刊导航”中选择“核心期刊导航”,其下共有七个分类,以第四编至第七编四个期刊分类下的学术期刊代表中文科技期刊,这四个分类包括自然科学、医药卫生、农业科学和工业技术。在每个分类下按照复合影响因子排序,并选取前20%的中文科技期刊作为研究样本,同时获取期刊的栏目、学科、评价等数据。
其次,为了得到论文的被引频次和公开发表前的文字复制比例,在中国知网导出这些样本论文的被引次数(考虑论文在发表后两年左右时被引用的次数趋于稳定,时间截至2019年12月31日),下载期刊2017年公开发表的全文,并将其导入CNKI科研诚信管理系统研究中心的学术不端文献检测系统,对论文的相似度进行检测,获取论文公开发表之前的重复率(具体方法参见下文关于内核指数的计算过程)。
再次,按照期刊名称在微信客户端搜索公众号,并对期刊官方微信公众号发布的原创文章数量进行统计(2017—2019年),同时登录期刊官网获取期刊其他的媒体形式、外文版及外籍编委等数据,在可以访问的媒体形式中对期刊的数字化信息进行采集。
最后,为消除极端值和缺失值对研究结果的影响,对收集到的期刊和论文进行如下处理:(1)本文的研究对象是中文科技期刊,而中国科学引文数据库(CSCD)收录了我国数学、物理、化学、天文学、地学、生物学、农林科学、医药卫生、工程技术等领域出版的中英文科技核心期刊,具有内容丰富、结构科学、数据准确的特点,因此在初步筛选的样本中剔除非CSCD(2017—2018年)中文核心库来源期刊;(2)剔除尚未开通微信公众号(包括订阅号、服务号和小程序)的期刊;(3)剔除投稿须知、会议通知、征稿启事、总目录等类型文章;(4)剔除被引次数、栏目信息、媒体数量、数字出版形式、作者数量、编委数量等数据缺失的期刊和论文样本。按照上述步骤和方法,本文最终获得了98份期刊的17615篇论文作为研究样本,为了减少数据中极端值对模型和结果的干扰,对相关数据中的连续变量进行了1%的Winsorize处理和分析,即如果某连续变量的值小于该样本的1分位数(或大于99分位数),则该变量的值被替换为1分位数(或99分位数)。
2.研究方法
运用Stata15统计软件对期刊数据进行预处理和编程,使用SPSS25.0统计软件进行因子分析,对产生的结果做出分析和解释。因子分析法的主要作用是将多个指标维度降低,用较少的几个主要因子去反映原始数据中的重要信息,通过因子分析法可以简化指标的处理,有利于期刊原创指数构建,提高计算的效率。
二、中文科技期刊原创指数的变量选取
在构建原创指数时应充分考虑指数的易得性、可量化性、可对比性等特性,并遵循公开、客观的原则。笔者在借鉴以往学术期刊评价相关研究成果的基础上,构建了内核指数、黏性指数、贡献指数、特色指数、专业指数、全媒体指数、数字化指数、首发指数、国际作者指数与国际编纂指数等10个中文科技期刊原创指数,其计算方法见表1。
表1 中文科技期刊原创指数的变量计算与说明
变量名称 | 变量符号 | 变量计算与说明 |
内核指数 | core | 100%-δ, δ是在学术不端文献检测系统中每篇论文在发表月份之前的相似度均值。按发文数量计算期刊年度core均值 |
黏性指数 | viscosity | 期刊官方微信公众号发布的原创文章数量(2017-2019年) |
贡献指数 | citation | 按发文数量计算期刊年度被引次数均值 |
特色指数 | feature | 将期刊的栏目名称与相同学科分类中其他样本期刊的栏目进行对比, 得到不同于其他期刊的独有栏目数量总和 |
专业指数 | specialty | 期刊发表文献所属学科的分布数量 |
全媒体指数 | media | 拥有宣传、采编、出版等媒体形式的数量 |
数字化指数 | digital | 在期刊拥有的媒体形式中, 如果可以对文献进行HTML全文阅读则计为1, 否则计为0 |
首发指数 | pioneer | 网络首发、优先数字出版、独家数字出版等形式的数量 |
国际作者指数 | global | 发表论文中的外籍作者人数 |
国际编纂指数 | compile | 编委会成员中的外籍编委人数 |
内核指数(core)是衡量论文原创性的核心指数。将每篇论文导入CNKI科研诚信管理系统研究中心的学术不端文献检测系统,根据此检测系统输出的结果(相似文献、文字复制比例),将论文在发表月份之前的文字复制比例进行加总,并除以相似文献的总篇数,得到论文的相似度均值δ,用100%减去δ的值作为每篇论文的内核指数,论文的内核指数越高,说明论文的原创程度越高,随后根据每份期刊的发文数量和每篇论文的内核指数计算期刊年度内核指数,期刊的内核指数代表着期刊核心内容的创新程度。
黏性指数(viscosity)是根据微信公众号发布的原创文章数量计算得到的数据,微信公众平台根据拟发布内容对运营者的原创声明进行严格的审核,审核通过后方可在文章中标记“原创”,故期刊在其官方微信公众号发布的原创文章越多,表明期刊分享的研究方法、前沿领域、科技新知等原创内容越多,这样读者有更强的意愿关注、阅读、引用和投稿,用户黏性越强。
贡献指数(citation)是测度期刊已发表论文贡献的指数,以每篇论文发表年限为权重计算被引次数,并以此为基础按发文数量计算期刊被引次数均值。论文的被引次数越多,说明作者对期刊所发表论文的原创程度越认可,期刊对学科和研究领域的贡献便越大。
特色指数(feature)是反映期刊栏目特质的指数,对中国知网期刊导航中所有样本期刊界面下的“文献所属栏目的分布”进行统计,将每份期刊的栏目名称与相同学科分类中其他样本期刊的栏目进行对比,得到不同于其他期刊的栏目名称和数量,对独有的栏目数量进行加总得到特色指数,独有的栏目数量越多,表明期刊栏目的特点越鲜明,栏目原创性越高。
专业指数(specialty)是反映期刊专业化水平的指数,对中国知网期刊导航中所有样本期刊界面下的“文献的学科分布”进行统计,学科数量越少,表明期刊涵盖的领域和学科越专一,专业化水平越高。
全媒体指数(media)是指期刊拥有的宣传、采编、出版等媒体形式的数量。媒体数量和形式越多,期刊能够利用的传播期刊发表的原创内容的媒介越多,在全媒体时代读者更愿意通过多种渠道获取新的文献和知识。
数字化指数(digital)的计算是二元的,即在样本期刊任意媒体形式中,如果可以对发表的文献进行HTML全文阅读则计为1,如果不能进行全文阅读则计为0。HTML全文阅读具有诸多优点,例如可以自适应终端的屏幕大小,单独查看、下载图表,点击文中引用信息可跳转至文后相应的参考文献,点击参考文献条目可跳转至文献DOI指向的原始出处。若期刊发表的论文可以进行全文阅读,在阅读形式上原创度越高,读者的阅读体验越好。
首发指数(pioneer)是衡量期刊传播原创内容速度的指数,出版形式能够影响期刊的影响因子[11],期刊在中国知网以“网络首发”“优先数字出版”“独家数字出版”等形式出版的数量即为首发指数。相对于纸质版期刊的出版方式,“网络首发”和“优先数字出版”等出版形式能以更快的速度将原创的研究成果展现在读者和大众面前。
国际作者指数(global)反映期刊作者国际化程度的指数,以发表论文中的外籍作者人数为测度指标,国际作者指数越高表明更多的国际学者愿意将其原创内容和成果展现在学术期刊的学术平台上。
国际编纂指数(compile)是衡量期刊编纂能力的指数,期刊编委会成员中的外籍编委人数越多,说明编委会在组稿、审稿、编纂等方面的能力越强,能对论文进行严格的审核和把关,能够促进期刊原创内容的产出。
三、适用性检验与公共因子的提取
1.原创指数因子分析适用性检验
在进行中文科技期刊原创指数因子分析之前,需要对数据进行KMO测度和Bartlett检验,目的是检验样本和数据的适用性。研究表明,KMO值在大于0.5的基础上越接近1,表示原始数据越适合做因子分析。表2展示了KMO测度和Bartlett的检验结果,KMO测度值为0.708,表明原有变量较适合进行因子分析处理。Bartlett检验的相伴概率为0.000,在1%的水平上显著,说明变量间的相关系数矩阵是非单位矩阵,符合因子分析的条件。
表2 因子分析适用性检验结果
KMO | Chi2 | df | Sig. |
0.708 | 1286 | 120 | 0.000 |
2.公共因子的提取
原创指数因子分析适用性检验结果表明,原始的10个指数比较适合进行因子分析,接下来选择主成分分析法和方差最大法分别作为因子分析的攫取方法和载荷矩阵的正交旋转方法,提取特征值大于1的主成分,对数据进行因子分析,正交旋转前后的累计方差解释率见表3。
表3 正交旋转前与旋转后累计方差解释率
因子 | 正交旋转前 | 正交旋转后 | ||||
特征值 | 方差解释率 | 累计方差解释率 | 特征值 | 方差解释率 | 累计方差解释率 | |
F1 | 3.826 | 29.61% | 29.61% | 3.216 | 24.52% | 24.52% |
F2 | 2.418 | 23.99% | 53.60% | 2.179 | 22.36% | 46.88% |
F3 | 1.351 | 14.01% | 67.61% | 1.964 | 17.89% | 64.77% |
F4 | 1.023 | 13.47% | 81.08% | 1.208 | 16.31% | 81.08% |
方差解释率是同一公共因子对各变量方差贡献的总和,方差解释率越大,表示公共因子的重要性越强。表3显示,SPSS统计软件提取了4个特征值大于1的公共因子,累计方差解释率是81.08%,表明这4个主因子基本保留了10个样本指数的大部分信息。
四、中文科技期刊原创指数的构建
1.公共因子的命名
由于降维的效果较好,可以根据因子载荷较高的主要变量中所蕴含的共同信息,对4个公共因子进行分类和命名,正交旋转后的因子载荷与得分系数见表4。
表4 正交旋转后的因子载荷与得分系数
变量 | F1(JOIOC) | F2(JOIBT) | F3(JOIMC) | F4(JOIGL) |
core | 0.903* | 0.025 | 0.133 | 0.009 |
(0.301) | (0.008) | (0.065) | (0.030) | |
viscosity | 0.875* | 0.018 | 0.196 | -0.202 |
(0.267) | (0.005) | (0.067) | (-0.069) | |
citation | 0.816* | 0.180 | 0.104 | 0.182 |
(0.228) | (0.061) | (0.034) | (0.062) | |
feature | 0.068 | 0.922* | -0.013 | 0.211 |
(0.023) | (0.307) | (-0.040) | (0.071) | |
specialty | 0.036 | 0.814* | 0.125 | 0.016 |
(0.012) | (0.234) | (0.042) | (-0.004) | |
media | -0.021 | 0.015 | 0.796* | 0.093 |
(-0.007) | (0.004) | (0.213) | (0.031) | |
digital | -0.078 | 0.138 | 0.835* | 0.085 |
(-0.026) | (0.047) | (0.243) | (0.022) | |
pioneer | 0.219 | 0.227 | 0.809* | 0.009 |
(0.073) | (0.082) | (0.223) | (0.003) | |
global | 0.006 | 0.012 | 0.096 | 0.934* |
(0.002) | (0.004) | (0.032) | (0.311) | |
compile | 0.036 | -0.179 | 0.104 | 0.724* |
(0.011) | (-0.053) | (0.035) | (0.305) |
表4的结果显示,公共因子中的几个变量存在较高的相关度,因子间不存在严重的多重共线性,4个公共因子指数可以用于随后的数据处理和分析。表4中core、viscosity、citation在公共因子F1上的因子载荷有两个超过了0.8,另一个大于0.9,方差解释率为29.61%,对数据总体变化的贡献最多,说明内核指数、黏性指数、贡献指数相关程度较高,归在同一个主成分之下,它们共同蕴含着期刊原创内容的信息,表明了期刊的原创能力,因此将公共因子F1命名为原创内容因子(JOIOC)。
feature和specialty在公共因子F2上的因子载荷均超过了0.8,方差解释率为24.00%,特色指数和专业指数较好地反映了期刊在栏目特色和专业水平上的原创程度,因此将公共因子F2命名为品牌特质因子(JOIBT)。
media、digital和pioneer在公共因子F3上的因子载荷均超过了0.7,说明全媒体指数、数字化指数和首发指数具有相近的核心信息,将它们归类在同一个公共因子中,可以反映期刊在媒体传播方面的原创能力,因此将F3命名为媒体传播因子(JOIMC)。
global和compile在公共因子F4上的因子载荷均超过了其他变量,这表明国际作者指数与国际编纂指数共同反映了期刊的国际原创稿源质量和编审能力,因此将F4命名为国际化因子(JOIGL)。
2.主因子得分与原创指数计算
运用因子分析法将样本数据生成旋转得分系数,具体情况见表4(括号内是因子得分系数)。根据表4的因子得分系数,用因子得分系数乘以标准化后的10个指数得出每个因子得分的计算公式,由于因子载荷超过0.5的变量对公共因子的影响比较大,故选取因子载荷超过0.5的变量作为主因子得分的主要指数,得到如下主因子得分表达式。
JOIOC=0.301×core+0.267×viscosity+0.228×citationJOIOC=0.301×core+0.267×viscosity+0.228×citation (1)
JOIBT=0.307×feature+0.234×specialtyJOIBT=0.307×feature+0.234×specialty (2)
JOIMC=0.213×media+0.243×digital+0.223×pioneerJOIMC=0.213×media+0.243×digital+0.223×pioneer (3)
JOIGL=0.311×global+0.305×compileJOIGL=0.311×global+0.305×compile (4)
每个公共因子描述了中文科技期刊原创指数的各个侧面,若要衡量学术期刊整体的原创指数则需计算综合因子得分,在计算出各个因子得分的基础上,根据表3中每个提取因子正交旋转前的方差解释率在四个因子累计方差解释率(81.08%)中的占比计算每个因子的权重,将得出的因子得分和权重相乘并加总得到中文科技期刊原创指数的综合得分(JOI),如式(5)所示。
JOI=0.365×JOIOC+0.296×JOIBT+0.173×JOIMC+0.166×JOIGLJOI=0.365×JOIOC+0.296×JOIBT+0.173×JOIMC+0.166×JOIGL (5)
由此构建出中文科技期刊原创指数体系,此体系包括一级指数、二级指数和三级指数共3个层次,其中二级指数包括原创内容、品牌特质、媒体传播和国际化共4个构面,三级指数包括内核、黏性、贡献、特色、专业、全媒体、数字化、首发、国际作者与国际编纂共10种要素(见表5)。
表5 中文科技期刊原创指数三级指数体系
一级指数 | 二级指数 | 三级指数 |
中文科技期刊原创指数的综合得分(JOI) | 原创内容因子(JOIOC) | 内核指数(core) |
黏性指数(viscosity) | ||
贡献指数(citation) | ||
品牌特质因子(JOIBT) | 特色指数(feature) | |
专业指数(specialty) | ||
媒体传播因子(JOIMC) | 全媒体指数(media) | |
数字化指数(digital) | ||
首发指数(pioneer) | ||
国际化因子(JOIGL) | 国际作者指数(global) | |
国际编纂指数(compile) |
五、结论与展望
本文运用因子分析法,构建中文科技期刊原创指数体系,此体系适用于数据(如被引次数、栏目信息、媒体数量、数字出版形式、作者数量、编委数量等)完备的中文科技期刊,可为后续的验证性和扩展性研究提供良好的思路和视角,并可以为今后的实证研究和案例研究奠定良好的理论基础和研究框架。研究结论有利于治理学术乱象,推进学术发展,助力评价中文科技期刊原创指数,培育品牌意识,打造具有原创力的出版物,增强核心竞争力,建立良好的学术生态圈。
参考文献
[1]沈燕燕.原创力是出版的活力源泉[J].科技与出版,2017,20(8):109-112,126.https://www.cnki.com.cn/Article/CJFDTOTAL-KJYU201708027.htm
[2]董天策.试论新闻传播学术创新[J].新闻与传播研究,2013(2):14-23.https://www.cnki.com.cn/Article/CJFDTOTAL-YANJ201302005.htm
[3]王海涛,谭宗颖,陈挺.论文被引频次影响因素研究——兼论被引频次评估科研质量的合理性[J].科学学研究,2016,34(2):171-177.https://www.cnki.com.cn/Article/CJFDTOTAL-KXYJ201602003.htm
[4]白雪娜,张辉玲,黄修杰.科技论文基金项目标注的不端行为及防范对策研究——基于178篇论文标注209个国家自然科学基金项目的实证分析[J].编辑学报,2017,29(3):260-264.https://www.cnki.com.cn/Article/CJFDTOTAL-BJXB201703022.htm
[5]王黎明,张啸兵,俞立平.论文作者数与被引频次关系的再思考[J].情报杂志,2019,38(9):166-170,157.https://www.cnki.com.cn/Article/CJFDTOTAL-QBZZ201909025.htm
[6]李跃艳,熊回香,李晓敏.基于主成分分析法的期刊评价模型构建[J].情报杂志,2019,38(7):199-207.https://www.cnki.com.cn/Article/CJFDTOTAL-QBZZ201907030.htm
[7]张洋,常珍珠.基于CSSCI的国内期刊评价研究计量分析[J].图书馆学研究,2016(10):17-25.https://www.cnki.com.cn/Article/CJFDTOTAL-TSSS201610003.htm
[8]许新军.优化期刊评价指标体系的五维路径——对《中文核心期刊要目总览》的建议[J].中国科技期刊研究,2018,29(2):118-124.https://www.cnki.com.cn/Article/CJFDTOTAL-JYKQ201802004.htm
[9]张小强,杜佳汇.中国大陆"新媒体研究"创新的扩散:曲线趋势、关键节点与知识网络[J].国际新闻界,2017,39(7):30-57.https://www.cnki.com.cn/Article/CJFDTOTAL-GJXW201707002.htm
[10]余倩.中国人文社会科学期刊开放存取现状研究[J].图书馆学研究,2018(14):71-76.https://www.cnki.com.cn/Article/CJFDTOTAL-TSSS201814011.htm
[11]张小强,史春丽.独家数字出版与期刊影响因子关系的实证分析[J].编辑学报,2014,26(3):205-209.https://www.cnki.com.cn/Article/CJFDTOTAL-BJXB201403003.htm