【摘 要】为提升大数据时代我国学术期刊精准化知识服务水平,本文将用户画像技术引入学术期刊知识服务,并构建了学术期刊用户画像流程:一是系统收集用户的真实原始数据并进行数据预处理,从中提取事实标签;二是对事实标签进行建模计算,获取模型标签;三是对模型标签进行算法挖掘,得到预测标签;四是在预测标签基础上构建作者画像、读者画像与专家画像。基于此,文章提出学术期刊精准化知识服务策略,即,要立足用户特征,把握用户需求,搭建用户网络,细分用户标签,实现服务模式精准化、内容多样化、方式社交化和推送个性化。
【关键词】学术期刊;精准化知识服务;用户画像;大数据
《STM出版技术趋势2024》报告的主题是“用户为中心”,指出未来的技术趋势是把用户作为核心,根据用户需求,把技术无缝嵌入用户的工作流程中,提供知识嵌入式服务[1]。面对大数据时代海量增长的用户数据、内容数据、交互数据,学术期刊基于大数据、人工智能和云计算技术洞察用户需求、关注当前研究热点,为科研人员提供精准化、个性化的知识服务是必然趋势。相关研究表明,构建用户画像模型有助于更好地理解用户需求,实现个性化和精准化信息服务。用户画像是以大量真实用户数据为基础,对用户行为、兴趣等进行特征抽取而形成的虚拟用户模型,具有全面性、真实性、代表性、动态性以及移情性等特征。Massanari[2]认为,用户画像是按照用户姓名、兴趣、爱好和习惯等特征对用户进行描述而形成的用户画像模型。很多学者都意识到,用户画像是一种描绘用户特征、表达用户诉求的,能实现精准信息服务的工具[3]。余传明[4]认为,用户画像是根据用户性别、受教育程度等人口统计学特征、社交关系和行为模式等而构建的一种标签化的用户模型。盛怡瑾[5]将用户画像技术应用于学术期刊审稿人遴选中。刘英[6]认为,未来学术期刊的数字出版离不开“精准”二字,学术期刊的内容生产、出版流程、内容传播、运营盈利等都需要围绕用户进行。向飒[7]认为,知识服务要为科研用户在科研立项、文献检索、科研指导、论文撰写等环节进行定制化、个性化服务。
但已有的文献中,关于用户画像与知识服务结合探讨的文献鲜见。学术期刊想充分挖掘用户数据、发现目标用户、分析用户需求,为用户提供个性化服务,就必须将用户画像引入学术期刊领域。用户画像可以利用数据挖掘对用户数据之间的关系进行分析,发掘表面上复杂无序信息的联系,将用户画像结果应用到精准信息服务领域。只有充分建立用户画像的数据库,才能做到精细化、定制化的知识服务。因此,本文试图通过用户画像技术来满足学术期刊用户精准需求,为学术期刊精准化知识服务提供具有可操作性的策略。
1 学术期刊用户画像的数据采集
用户画像的构建是搜集用户特征数据、研究用户信息、细分标签、丰富用户画像描述的过程。运用用户画像技术对真实存在的用户进行数学建模,将用户特征标签化,所构建的用户画像模型与用户越贴合,用户特征就越准确,用户画像构建就越成功。
学术期刊自建网站、知网数据库、万方数据库、维普数据库、期刊微信公众号等共同构成中国学术期刊用户画像的基础数据库。可以从四个方面采集学术期刊用户元数据,如表1所示。用户数据的采集主要采用自编程序、八爪鱼爬虫软件、深度访谈等方法。最终通过数据清洗、数据集成、数据规约、数据变换等数据预处理方法,将半结构化数据与非结构化数据转化为易于存储查询的结构化数据。
表1 学术期刊用户画像原始数据内容与采集方式
数据类型 | 数据来源 | 主要信息 | 采集方式 |
基础信息数据 | 学术期刊网站、期刊数据库、投稿平台等 | 姓名、性别、学校(单位)、职业(专业)、职称、出生日期、居住地、联系方式 | 用户注册信息导出 |
研究动态数据 | 期刊数据库、学术期刊客户端 | 论文、著作、专利、科研项目 | 期刊数据库导出、爬虫 |
行为偏好数据 | 互联网搜索引擎、期刊数据库 | 页面浏览频次、内容搜索关键词、登录时间段、使用设备、订阅期刊、投稿记录 | 爬虫、期刊数据库导出 |
社交互动数据 | 期刊微信公众号、学术期刊客户端、期刊数据库 | 学术合作、导师、点赞次数、评论内容、转发次数 | 爬虫、期刊数据库导出 |
2 学术期刊用户画像标签体系创建
构建用户画像的核心工作是给用户贴“标签”。标签是对采集的用户数据进行挖掘、过滤和分析,提取目标用户群的特征,高度精练特征并进行标识的过程。用户标签是对用户某项特征进行的抽象和概括,按照处理过程和获取方式划分为事实标签、模型标签、预测标签三个层级。通过对学术期刊用户元数据的清洗、转换等处理从原始数据中提取事实标签,对其建立模型进行计算获取模型标签,在此基础上通过聚类、分类、关联规则、决策树、协同过滤等数据挖掘算法得到预测标签,如图1所示。

图1 学术期刊用户标签体系创建
第一步,统计分析。对原始数据进行统计分析,提取事实标签。通过文本挖掘、主题抽取、数据统计等方法,从原始数据中尽可能多地提取事实标签。例如,在用户的研究动态数据中进行主题抽取,得到论文主题、著作主题、科研项目主题、专利名称等事实标签;对用户登录时间、检索记录、订阅购买记录等进行统计计算,得到登录时长频次、检索主题及频次、订阅购买次数等事实标签。
第二步,建模分析。以事实标签为基础,通过建模分析,得到模型标签。采用回归法、决策树等算法建模分析,进一步挖掘用户特征。例如,通过对订阅购买次数、论文发表数量、论文主题等建模分析,可以得到用户的期刊亲近度;通过用户填写的单位、职称、科研项目经历,以及对用户所发论文的被下载量、被引量等数据进行建模分析,可以得到学术地位、学术研究活跃度等标签,为之后的约稿、遴选审稿人等提供参考;通过对登录时长与频次、设备使用频率等进行关联建模,可以得到用户的设备使用习惯、登录时长分布等。以上信息均有助于学术期刊选择相应时间及渠道向用户推送信息。
第三步,算法预测。在模型标签基础上,利用预测算法,如机器学习中的监督学习、计量经济学中的回归预测、数学中的线性规划等,对用户近期科研需求、目标合作对象、期刊续订概率、稿件录用概率等进行预测,从而实现期刊知识服务的精准化、个性化和定制化。
3 学术期刊的用户画像呈现
通过聚类算法将有相似特征的多个用户聚集为用户群体,构建群体画像,例如作者画像、读者画像和专家画像。
(1)作者画像。撰稿作者的专业、研究方向、作者贡献度、近期发文数量、总被引频次等标签集合构成了作者用户画像,tagCloud、Tagul等工具可以直观呈现作者的发文状况,学术期刊可以据此预测该作者可否为本期刊合作对象。例如,CNKI中国引文数据库中设置的“作者分析器”,包括作者名称、作者单位、发文量、各年被引量等数据,以图表模式和数据模式两种可视化方式呈现期刊分布和关键词排名。
(2)读者画像。用户的搜索关键词、下载论文关键词、订阅期刊、订阅次数、访问地址、关注公众号等标签构成读者画像。学术期刊根据呈现出的读者画像判断读者当前所处的科研阶段,针对科研立项、论文选题、论文撰写、学术交流等不同阶段为读者提供所需服务。
(3)专家画像。学术影响力、学术关系网络、学术研究活跃度、研究成果质量等标签构成了专家画像。例如,中国知网推出的CNKI学者成果库,包括基本信息、学术关注点、全部研究成果、学术影响力分析、学术关系网络、所在领域研究现状等,排序领域还有学者的发文数量、被引频次、H指数、G指数等最新数据。通过专家画像系统,学术期刊可以精准审稿和约稿以及相关信息服务推送。
4 基于用户画像的学术期刊精准化知识服务策略
4.1 瞄准用户特征,服务模式精准化
一是学术期刊选题策划精准化。学术期刊可以通过用户画像,分析用户搜索信息、下载内容和引用的趋势,快速准确筛选热点研究方向,找到有价值的内容,做出科研方向的决策;通过参考用户的研究方向、研究兴趣,推送给作者最有研究价值的学术研究热点。例如,Elsevier开发了科研管理分析工具SciVal,通过可视化图表展示科研机构以及科研人员的信息,如所属国家、研究机构、研究方向、课题小组等,可为科研人员追踪研究热点,识别全球科研动态,建立合作网络等[8]。
二是学术期刊审稿的精准化。审稿专家的研究方向经常根据研究热点而调整变化,研究内容日益细化和交叉,因此审稿人查找变得日益困难。国外学术出版集团纷纷开发基于用户画像的智能审稿专家系统,通过审稿专家画像的资源信息,自动统计和汇总专家审稿时效,综合给出专家评分,并利用对接论文的关键信息和研究领域,自动精准匹配审稿专家,提高同行评议质量,实现智能遴选。例如,Elsevier推出了审稿人认证平台(Reviewer Recognition Platform),为审稿人制作了包含审稿记录的档案页面,方便大家精准找到相关领域的学者以及发现评议中出现的问题。
4.2 把握用户需求,服务内容多样化
学术期刊通过全面、精准、多维和动态的用户画像体系对用户线上和线下行为进行深度洞察,将元数据、模型、图表与网络平台、数据库、社交媒体、移动端等类型数据集形成连接,实现用户需求体验的精准对接,开发出图片、音频、视频、数据库、知识库、知识解决方案等多模态的内容产品。例如,Elsevier基于ScienceDirect和Scopus两大数据库满足用户的特定需求,通过数据分析帮助出版机构进行决策。Wiley、美国科学促进会等学术出版机构和Kudos平台进行合作,将已经发表的论文通过作者补充添加的方式,生成论文概述、论文宣传推广、实验数据、视频、图像等辅助材料,分享至Facebook、Twitter等社交媒体,或ResearchGate、Academia等科研社交平台,极大提升科研成果的学术影响力。剑桥大学出版社推出了数字平台——剑桥核心(Cambridge Core),精准对接作者,提供全流程服务:通过First View在线出版缩短出版周期,作者和编辑共同商定出版细节,论文的PDF版本即时发送给作者,论文发表后及时跟踪和评估文章的影响[9]。
4.3 搭建用户网络,服务方式社交化
学术期刊根据用户画像中呈现出的用户活跃度、学术合作关系和学术地位等,借助社交媒体和学术期刊社群搭建用户关系网络,实现社交化的知识服务。
一是打造学术期刊用户意见领袖。依据用户画像呈现的学术地位、学术研究活跃度、与他人互动程度等,打造学术期刊用户中的意见领袖,将同类兴趣的研究用户凝聚在一起,借助意见领袖的学术影响力,提升学术期刊知识服务的准确度。
二是运营学术期刊用户社群。根据用户的研究领域、活跃程度,建立秩序良好、研究领域清晰的知识学习社群。例如,《现代医药卫生》以QQ、微信等社交媒体建立的医学网络社群为基础,打造了医学专业社群体系——“杏林医学平台”,覆盖医学领域近30个学科专业,QQ群、微信群数量近1 000个,在线医务工作者达15万人,成为我国西南地区最大的医生社交网络体系;期刊编辑部通过杏林医学平台开展选题策划与调研、开辟学术讲堂、对期刊优质论文进行二次传播[10]。
4.4 细分用户标签,服务推送个性化
学术期刊在细分用户的基础上精细把握用户多维标签,使得知识服务与学术期刊用户需求相匹配,满足用户精准化知识服务。学术期刊可以根据用户画像中的信息检索、浏览时长分布等判断用户目前所处科研环节,在用户立项、资料搜集、论文撰写、论文投稿、学术分享等不同环节向其推送所需的信息和工具,实现不同层次、不同学科类型科研用户的信息服务精准推送。美国罗斯蒙学院出版项目主管Hartmann认为,出版商了解目标读者所需要的信息、喜好、阅读目的以及日常工作流程、面临的问题和挑战等,是做好数字内容出版的基本要求[11]。例如,加拿大知名出版服务公司Trend MD的核心思想是“跨平台相关文章精准智能服务”,Nature、Science等均与其建立合作,出版商将Trend MD插件安装在网站上通过算法自动向读者精准推荐热点文章、学科前沿、编辑认为价值高的文章和专题以及下载量高的文章[12]。
5 结语
大数据、人工智能和云计算技术带来了信息内容、传播方式的变革,深入准确理解学术期刊用户的信息需求,解决知识服务精准推送中的用户“意图鸿沟”,用户画像技术与出版系统的融合是学术期刊知识服务未来发展的必然趋势。学术期刊只有及时把握并跟踪用户需求的不断变化,基于用户网络关系环境,采集动态的、系统的用户数据,通过数据挖掘、过滤与分析,提炼用户特征,细分标签,最大限度地刻画用户画像模型并建立数据库,才能更好地从海量科研数据中匹配不同科研用户的知识资源需求和服务需求,为学术期刊用户提供精准的知识服务。
参考文献
[1]Techtrends 2024-STM[EB/OL]. [2020-04-30]..
[2]MASSANARI A.Designing for Imaginary Friends:Information Architecture,Personas and the Politics of User Centered Design[J]. New Media & Society,2010,12(3):401-416.
[3]徐芳,应洁茹.国内外用户画像研究综述[J].图书馆学研究,2020(12):7-16.
[4]余传明,田鑫,郭亚静,等.基于行为-内容融合模型的用户画像研究[J].图书情报工作,2018(13):54-63.
[5]盛怡瑾.用户画像技术在学术期刊审稿人遴选中的应用[J].出版发行研究,2018(8):54-58.
[6]刘英.“互联网+”背景下学术期刊精准出版发展路径研究[N].中国新闻出版广电报,2020-03-25(004).
[7]向飒.国外学术出版集团数字化和智能化发展现状及我国对策建议[J].中国科技期刊研究,2019,30(7):740-744.
[8]陈振英,何小军.如何利用SciVal辅助学术期刊选题及约稿[J].中国科技期刊研究,2020,31(7):809-815.
[9]肖超.利益相关者视角下剑桥大学出版社学术出版服务及启示[J].出版参考,2018(11):29-32.
[10]苏畅,毕丽,孙廷,等.专业社群与医学科技期刊融合发展探索:《现代医药卫生》实践为例[J].中国科技期刊研究,2017,28(11):1078-1082.
[11]HARTMANN T V.A Holistic Approach to Digital Content Publishing[R]. New York: Science Press,2018.
[12]谢曼,石应江,李哲,等.TrendMD内容推荐平台:提升科技期刊国际影响力的新途径[J].编辑学报,2017,29(S2):73-75.