用户画像技术在学术期刊审稿人遴选中的应用_中国（武汉）期刊交易博览会（刊博会）

　　【作　者】盛怡瑾：中国科学院文献情报中心

　　【摘　要】学术期刊做好同行评议工作的关键是选择合适的同行专家进行审稿，当前审稿人遴选面临“找不到”和“找不对”两大主要问题，要解决此问题不仅需要考虑审稿人研究方向的精准匹配，还要考虑在编辑部成本及工作量限制下找到审稿质量好、受邀难度小、态度端正的审稿人。本文探讨了将用户画像技术应用到审稿人遴选中的必要性和可行性，并构建了审稿人画像模型，以期为编辑部的相关工作提供参考。

　　【关键词】学术期刊；同行评议；审稿人；遴选；用户画像

　　审稿人在同行评议中扮演重要角色，学术期刊做好同行评议工作的关键是选择合适的同行专家进行审稿，但这项工作正变得日益困难。审稿人遴选面临的两大主要问题是“找不到”和“找不对”。一方面，科学论文数量激增使审稿人数量相对贫乏。另一方面，领域专家的研究方向日益细化、交叉，且常随热点调整变化；互联网在扩大审稿人范围的同时使期刊对审稿人的深入了解和感情联络变得困难，编辑部很难精准匹配审稿人。此外，“找不对”还包括审稿态度不端正、审稿行为拖延等不符合编辑部和作者利益的行为。事实上，审稿人遴选目前主要依靠编辑部主观判断，存在许多隐患。研究者希望引入新方法找到“小同行”，提高审稿人匹配的领域精准性。以科学计量学为代表的一系列方法引发人们关注，同时，为了促进审稿专家接受审稿邀请并认真完成审稿任务，研究者还通过调查及工作经验总结审稿人心理驱动因素。

　　过去的研究能在一定程度上帮助编辑部更科学地选人，但还存在一些不足。首先，大多数定量研究都考虑单一目标，基于审稿人某方面特质，尤其是学术方向进行选择和匹配，而审稿专家的选择实际是一个复杂的多因素问题，不仅需要考虑匹配精准性，还需要考虑在编辑部花费最小成本和最少工作量的前提下，找到审稿质量好、受邀难度小、态度端正的审稿人。选择审稿人时要对多个因素综合权衡。其次，以往有关综合因素的研究多偏于定性经验总结和调查，并不全面。最重要的是，缺少研究对审稿人行为进行预测以指导遴选并把控同行评议全程。本文试图采用用户画像方法对审稿人选择问题进行综合衡量，解决“信息孤岛”和信息不对称问题，帮助编辑更好地了解和熟悉每个审稿人，更准确地完成审稿人遴选和送审工作。

　　一、用户画像方法概述

　　用户画像（User Persona）这一概念最早由交互设计之父Alan Cooper提出，指建立在真实数据上的用户模型。随着大数据和人工智能的发展，目前广泛应用的用户画像（User Profile）指通过收集与分析用户的社会属性、生活习惯、消费行为等信息，抽象出用户的“全貌”，是对用户的标签化过程。通过用户画像可以发现用户偏好，为用户提供个性化服务。目前，用户画像技术已被广泛应用于个性化推荐、精准营销、产品研发等多个方面。总的来说，用户画像通过对真实的用户进行数学建模，抽象出最能描述用户的主要特征，模型与真实用户越贴合，越能描述某一目标下所有的用户特质，用户画像构建得就越成功，因此这种建模并不是一次性完成，是不断反馈和修正的过程。

　　二、必要性与可行性分析

　　上文提到，用户画像方法已经被广泛应用在各个领域，但在期刊领域还未有应用，更没有人将其应用在审稿人画像上，因此本节探讨使用用户画像技术对审稿人画像的必要性和可行性。

　　（一）必要性分析

　　1. 深入了解审稿人，建立情感纽带

　　稿件数量激增及投稿方向多元促使审稿专家数量随之增加。庞大的审稿专家团体为期刊外审提供了基数保证，也意味着编辑部无法像过去那样了解每个审稿人。尤其是网络的便利打破了审稿人选择的地域限制，审稿人与编辑部可能异地而处，编辑部对审稿人知之甚少。采用用户画像技术对审稿人进行立体化描述，能让审稿人形象变得鲜活，编辑部任何编辑都可在联系审稿人前对该审稿人的形象、偏好、特点进行了解，从而提高沟通效率，并让审稿人感受到编辑部的尊重和重视，也保证了审稿人遴选工作不受编辑部人员变动影响，有助于编辑部建立和审稿人的情感纽带，对编辑部工作顺利进行和声望不断提高有重要意义。

　　2. 有效打动审稿人，提升稿件接受率

　　审稿人拒绝编辑部发出的邀请会增加编辑部工作量，也会严重拖慢同行评议时间。因此，提升审稿人的接受率至关重要。要提升邀请接受率，最重要的是要打动审稿人，能采取的措施有三种：一是稿件方向与审稿人正在研究或关注的方向一致。二是根据审稿人的心理投其所好，如是否注重奖励等。三是根据审稿人的审稿习惯，选择审稿人容易接受邀请的时间、方式等发送邀请，提高受邀率。而用户画像技术的应用恰恰可以帮助编辑部了解审稿人的领域、心理及行为，从而制定相应的策略。

　　3. 准确匹配审稿人，提高同行评议质量

　　学科交叉、融合，科研方向随热点改变，使审稿人的研究方向细化且保持变化，找到合适的审稿人能极大提高同行评议质量，这种“合适”有两方面含义：一是“小同行”，决定审稿准确度；二是符合期刊审稿标准和要求的审稿人，他们了解期刊定位及要求，能够认真、守时地为期刊审稿，让同行评议更加公平、准确、及时。因此，匹配到合适的审稿人能够提高同行评议质量，让同行评议真正发挥其在科学社区的筛选和促进价值。评价这种“合适”需要大量信息做支撑，用户画像技术能够为编辑部提供这种信息，因此非常必要。

　　4. 科学预测审稿行为，把控同行评议流程

　　利用用户画像技术可以预测审稿人行为，如预测审稿人审稿时间，审稿人此次审稿质量等，这种预测建立在对审稿人数据的分析建模之上，能够让编辑部在选择审稿人时对其所花时间及审稿质量有一定预估，从而方便编辑部根据稿件情况，如加急与否选择合适的审稿人，使原本主观且难以控制的审稿行为按照编辑部预想的方向发展，使整个过程可控可调。

　　（二）可行性分析

　　理论可行性是，编辑部越详细地了解审稿人，就越容易找到合适的审稿人，发挥同行评议价值，而审稿人很少积极向编辑部提供并更新自身信息，甚至有的信息（如习惯）审稿人自己都没有觉察，编辑部无法从审稿人那里得到全面的信息。但网络时代，审稿人的论文、演讲等信息会被公开呈现，其社交媒体及其他活动也能深刻反映其特点；无纸化办公使审稿人在系统中的操作都能被记录，庞大的数据中隐藏着重要的规律和信息，通过这些数据去总结、分析审稿人的特点是可行的。技术上的可行性是，大数据技术在各行各业的应用趋于成熟，计量分析、数据挖掘、文本挖掘、机器学习等方法也逐渐在期刊领域有所应用，因此，通过对相关数据进行分析和挖掘，并由此得到需要的规律是可行的。

　　三、模型构建

　　根据需求，本文构建了学术期刊审稿人画像模型，用以指导编辑部相关工作和实际应用。以下从数据集构建和标签模型构建两方面阐述模型的构建过程，其中，数据集构建是基础，标签模型构建是对数据的不断发掘和升华过程。

　　（一）数据集构建

　　1. 数据分类

　　用户画像的基础是数据，全面构建用户画像需要获得各方面的信息。根据编辑部在选择审稿人时需要考虑的综合因素、同行评议最终要达到的目标以及编辑部能够获得的原始数据，本文层层分析了所需数据，数据分类如表1所示。

表1 数据层级构建

基本信息	个人信息	姓名性别职称单位地址联系方式学科研究方向所获奖励
基本信息	期刊相关信息	是否编委本刊发文数本刊审稿数成为本刊审稿人时间
研究动态	学术作品	论文著作专利项目
研究动态	学术活动	演讲承担课程
心理特征	接受意愿	意愿激励方式意愿审稿方向意愿受邀时间
心理特征	审稿方式	意愿审稿数量意愿催审间隔
行为习惯	审稿行为	邀请回应时间邀请次数拒绝邀请次数中途拒审次数接受邀请日期(星期) 提交审回稿日期(时间) 审稿意见长度审稿时间审稿准确度审稿公平性审稿细致性
行为习惯	系统使用行为	系统登录频次系统登录时间在线时间段

　　（1）基本信息。基本信息记录了关于审稿人的一些基本事实，代表了审稿人的基本身份，其中所获奖励是对审稿人获奖情况的统计，可以用来分析审稿人在某个领域的重要程度，一定程度上影响审稿人受邀决定和审稿时间等。期刊相关信息记录了审稿人与期刊之间的渊源，便于分析审稿人和期刊的情感亲厚程度，因为有研究表明，与期刊相熟的审稿人更愿意接受审稿邀请，同时在审稿上更加快速和负责。

　　（2）研究动态。研究动态分为学术作品和学术活动，学术作品指审稿人的期刊论文、会议论文、专著、专利、项目等，这些数据蕴含审稿人所属学科、研究主题以及合作的同行等信息，学术活动包括审稿人演讲及在学校担任的课程，这类数据时效性强，便于深入了解并时刻更新审稿人的细分研究方向，帮助编辑部找到稿件的“小同行”专家。

　　（3）心理特征。心理特征分为接受意愿和审稿方式两类，反映审稿人对审稿的态度。接受意愿包括意愿激励方式、意愿审稿方向和意愿受邀时间，这些信息能够让编辑部知道审稿人心理，从而更好地使其接受审稿邀请；审稿方式包括意愿审稿数量和意愿催审间隔，能指导编辑部分配审稿工作时因人而异，也同时帮助预测审稿需要的时间，从而减少不必要的拖延和沟通，快速完成审稿人选择及审稿工作。

　　（4）行为习惯。行为习惯分为审稿行为和系统使用行为，审稿行为包括邀请回应时间、邀请次数、拒绝邀请次数、中途拒审次数、接受邀请日期（星期）、提交审回稿日期（时间）、审稿意见长度、审稿时间、审稿准确度、审稿公平性和审稿细致性，是考察审稿人一般审稿习惯并全方位评价和掌握其在审稿过程中的表现的基础。其中，对接受邀请日期数据进行收集是为了探索审稿人在接受审稿邀请时是否存在一定规律，比如周末可能比工作日更容易接受等，从而在其容易接受的时间发送审稿邀请，增加接受率。提交审回稿日期的记录，是为了研究审稿人提交审回稿时的日期和时间段是否有规律，这种规律可能反映出其愿意处理审稿的时间，那么在这个时间附近发送申请可能更快得到处理；同时也可以用来预测审稿人的交稿时间。系统使用行为包括系统登录频次、系统登录时间、在线时间段，这个指标是为了关注审稿人对系统的使用习惯，一方面便于编辑部加强和改进自身系统，另一方面可以掌握审稿人在系统活跃的规律，便于更好更及时地与审稿人联系。

　　2. 数据来源及描述

　　数据来源主要有七类：

　　（1）审稿人提供。特点是比较准确和固定，按照编辑部要求填写，相对整齐。个人信息中所获奖励情况及学术活动中的相关信息部分由审稿人提供，这类数据琐碎，审稿人存在不愿意提供、只提供一部分模糊信息或不会主动更新的问题，单纯依靠审稿人提供并不能达到要求。

　　（2）编辑部历史数据。这部分数据不难获取，但需要编辑部做简单统计工作，若系统中设置相应功能，可直接获取统计数。

　　（3）数据库。论文数据库、会议集、专利数据库、项目数据库等记录了审稿人的学术作品，这类数据比较准确而且结构化，但跨库之间的数据格式和表现形式不会完全融合，需要进行姓名消歧及其他清洗。

　　（4）网络数据。网络数据可使用爬虫工具爬取，特点是时效性强、分散、非结构化，可能存在错误，使用时要进行筛选和清洗。

　　（5）调查。对审稿人进行问卷调查及访谈，可以获知审稿人的偏好及心理，但组织调查的成本较高，需要审稿人的配合。

　　（6）编辑部评价。这部分属于经验数据，接触后，编辑部会对审稿人的审稿表现产生主观评价，通过科学的打分和计算，能够反映一定客观事实。这类数据优点是依赖编辑每次或定期打分，易获取，难点在于需要设计科学的评价方法，摆脱过分的主观随意性。

　　（7）系统记录。目前编辑部工作大都依赖于系统，积累和收集系统操作数据，可发现重要特征。这类数据量大且繁杂，在系统规划时应该考虑相关设计。对以上数据区分静态及动态，如表2所示。

表2 数据来源

原始数据	数据来源	数据特性(静态S/动态D)
姓名	审稿人提供	S
性别	审稿人提供	S
职称	审稿人提供	S
单位	审稿人提供	S
地址	审稿人提供	S
联系方式	审稿人提供	S
学科	审稿人提供	S
研究方向	审稿人提供	S
所获奖励	审稿人提供/网络数据	D
是否编委	编辑部历史数据	S
本刊发文数	编辑部历史数据	D
本刊审稿数	编辑部历史数据	D
成为本刊审稿人时间	编辑部历史数据	S
论文	数据库	D
著作	数据库	D
专利	数据库	D
项目	数据库	D
演讲	审稿人提供/网络数据	D
承担课程	审稿人提供/网络数据	D
意愿激励方式	调查	D
意愿审稿方向	调查	D
意愿受邀时间	调查	D
意愿审稿数量	调查	D
意愿催审间隔	调查	D
邀请回应时间	系统记录	D
邀请次数	系统记录	D
拒绝邀请次数	系统记录	D
中途拒审次数	系统记录	D
接受邀请日期(星期)	系统记录	D
提交审回稿日期(时间)	系统记录	D
审稿意见长度	系统记录	D
审稿时间	系统记录	D
审稿准确度	编辑部评价	D
审稿公平性	编辑部评价	D
审稿细致性	编辑部评价	D
系统登录频次	系统记录	D
系统登录时间	系统记录	D
在线时间段	系统记录	D

　　（二）画像构建

　　1. 标签建模

　　标签建模是用户画像的关键，经底层原始数据统计得到事实标签，对事实标签建模得到模型标签，并进一步得到预测标签（图1）。数据集构建及清洗完成后，要对数据进行简单统计，如计算拒绝邀请率、中途拒审率、平均审稿时间等；进行主题抽取，如抽取研究主题、讲座主题等；历史趋势刻画，如系统登录时间分布、接受邀请时间分布等；评价及调查数据量化，如审稿细致性、公平性等。事实标签层整理和量化原始数据，需要用到多元统计分析、文本挖掘、主题抽取、抽样调查分析等算法。事实层标签建立后，需进一步在此基础上建立模型标签，通过数据挖掘、机器学习算法对事实层数据建模，可得到一些有趣的规律，如通过对是否编委、本刊发文数、本刊审稿数、成为本刊审稿人时间、邀请回应时间、邀请拒绝率等数据建模，可得到审稿人与期刊的情感亲近度；对审稿意见平均长度、审稿平均时间、审稿准确度、审稿公平性、审稿细致性等数据分析建模，可得到审稿人审稿质量；通过作者填写的研究方向加上其论文、专利、项目的主题抽取，再配合审稿人演讲和承担课程的数据，得到审稿人细分研究领域，同时也可以分析出审稿人的合作者，便于制定送审时的规避策略；通过对审稿人接受邀请的日期及星期天数、系统登录时间和在线时间进行挖掘和关联建模，得到审稿人接受邀请率高的星期天数、时间段等信息，便于编辑部发送邀请。预测标签是在事实标签基础上，进一步通过预测预知审稿人行为，为决策提供参考。如预计审稿时间、拒稿概率、近期审理需求、接受邀请时间等，便于编辑部做流程控制。

　　2. 审稿人群体画像

　　在模型标签基础上，可进一步对审稿人全体画像，对审稿人群体分类，便于期刊了解其审稿人构成和特点，从而分析审稿人队伍建设的不足，为审稿人培训、编辑部流程优化及与审稿人交流提供策略依据。新的审稿人加入时，可以通过聚类及分类方法，计算与群体的相似度予以分群。

　　四、结语

　　同行评议中的关键是审稿人，解决好审稿人的问题，实际上就是解决对审稿人信息的获取问题，让编辑部更科学、智能地了解审稿人，预测审稿人行为。用户画像技术能够立体、生动地刻画出审稿人“全貌”，使原本主观不可控的同行评议过程有迹可循，是大数据技术在期刊领域良好的应用方向，应当受到编辑部的关注和重视。

业内信息

用户画像技术在学术期刊审稿人遴选中的应用