业内信息

互联网推荐系统在数字期刊中的应用

2021-05-08 来源:《科技与出版》
  【作 者】孙中悦、顾爽、范志静:《北京交通大学学报》编辑部

  【摘 要】数字期刊行业的快速发展使得期刊内容的个性化推荐、精准推送变得非常重要,将推荐系统应用于数字期刊推广领域也成为迫在眉睫的工作。文章在分析数字期刊推荐服务应用现状的基础上,借鉴现有互联网软件推荐系统架构,根据期刊的推荐业务需求,设计了数字期刊推荐系统的框架,探讨了数字期刊推荐系统的建设方法,并给出了相应的运营建议。

  【关键词】推荐系统;数字期刊;用户画像;内容特征;推荐算法

  随着互联网和数字出版技术的发展,数字期刊成为学术期刊出版、传播的主要形态[1]。数字期刊种类繁多,数据库信息量庞大,如何实现期刊内容资源与用户需求的有效匹配,已成为数字期刊运营和推广的难题。近年来,一些研究机构开始着手利用推荐服务来解决这些难题,通过内容的精细化加工、推送对象的精准化定位以及推送方式的精心选择,来促进科技期刊内容的有效传播[2-3]。

  1 数字期刊推荐服务应用现状

  1.1 期刊网站


  作为期刊的数字化传播平台,期刊网站除了为读者提供线上阅览渠道,还通过提供开放获取等多种形式的服务扩大期刊传播范围,提高期刊的影响力。目前,大部分期刊网站采用订阅的方式定期推送新刊论文,由于这类推送基本采用群发邮件等方式进行,用户可选择性小,导致用户接收到的推送文章与自己兴趣的匹配度不高[4]。

  1.2 已有互联网传播平台

  随着移动阅读的普及,应用微信公众号[5]、今日头条[6]、短视频[7]等平台进行信息推送已经成为扩大期刊学术影响力的一种趋势[8]。这些信息推送方式只是利用互联网产品现有的技术体系或是针对现有用户完成,无法形成完整的推荐流程,导致推送内容不够个体化,难以实现内容的精准推送。

  1.3 大型期刊集群出版平台

  国际大型期刊集群出版平台,如SpringerLink、ScienceDirect,和国内一些专业集群的期刊出版平台,如中国知网等,均含有文献自推荐系统。当用户阅读某篇论文时,系统会自动在网页的页面上推荐同领域用户关注的其他论文,引导用户继续阅读[9]。这些平台大多只推荐本平台出版内容,并未实现文章的跨平台推荐,具有一定的局限性。

  1.4 专业推荐系统

  Trend MD是一家国际知名技术和服务公司,其核心思想是相关论文的跨平台精准智能服务[10],通过一定的技术手段实现论文的精准推荐,展示来自于本平台和第三方平台的相关文献内容,为用户提供更丰富的学术资源。Trend MD目前已与全球350多家出版社旗下的5000多本期刊展开了合作,包括Science、Nature,Elsevier,Wiley等著名期刊和出版社[11]。为达到较好的推荐效果,Trend MD对论文英文写作和规范性方面要求较高,因此在国内,Trend MD大多与大型期刊社的英文期刊合作,且数量有限[12]。

  综上,国内已有数字期刊推荐服务还处于初级发展阶段,在个性化和精准推荐方面还有待完善,国际相对成熟的数字期刊推荐平台由于语种等条件限制,在国内尤其是中小期刊单位中普及程度不高。相比而言,推荐系统在电子商务、搜索引擎、娱乐、社交网络等互联网各个领域[13-14]得到广泛应用,并取得了巨大的社会效益和经济效益,已经发展成为一项系统工程,通过产品、数据、架构、算法、人机交互等方式进行场景推荐。因此,本文借鉴互联网推荐系统的理念,将推荐系统应用于数字期刊推广领域,系统探讨数字期刊推荐系统的建设方法,为学术信息的快速传播和精准推送提供参考。

  2 数字期刊推荐系统的总体框架

  数字期刊推荐系统主要是通过数据分析得到用户画像,然后将用户画像和推荐算法融合应用于用户的个性化推荐服务中。如图1所示,一个完整的推荐系统包含场景展现、在线服务、推荐算法和数据存储4层以及场景配置模块。



图1  数字期刊推荐系统的总体框架

  (1)场景展现层:即用户交互层,负责给用户展示推荐结果并与用户交互。在网站网页或者APP页面,根据期刊业务要求分成不同的推荐场景,以Feed流形式展现,依据具体期刊业务要求而定。网站或者移动APP终端将用户的各种各样行为记录到用户行为日志中,采集到的日志数据经过算法系统的计算,可以得到用户的偏好或者个性化兴趣,这些个性化数据又反过来进一步指导“展现内容”,使其更加完善。

  (2)推荐服务层:用来响应用户的请求,根据用户的行为、兴趣和不同的推荐策略返回给用户有限期刊文献列表。其中,模型服务是为了提高个性化的效果而开发的一系列公共个性化服务,收集用户画像特征和文章内容体征,并利用用户行为日志来训练,得出模型训练集。

  (3)推荐算法:主流的推荐系统算法包括协同过滤推荐(Collaborative Filtering)、基于内容推荐(Content-based)和混合推荐算法三种。此外,还有一些其他算法,如基于标签的算法等。

  (4)数据存储层:位于整体推荐架构的最底层,是推荐系统的支撑,包括数据采集、存储和数据计算。期刊的推荐系统必须存储大量的用户特征数据和所有的期刊内容与特征数据,并采集用户的行为数据,如浏览、关注、搜索、评论等。这些数据是大规模机器学习的基础,也是精确个性化推荐的前提。

  (5)推荐场景和参数配置:推荐场景配置就是配置在场景展现中的推荐场景分类,以及其相应的策略,例如“为你推荐”或者“其他用户喜欢”。算法参数配置调整各种用户行为操作在推荐算法中的比重,例如将喜欢、评论、分享、点击等行为量化为用户对文章的喜好程度数值。

  3 数字期刊推荐系统关键要素

  3.1 用户画像


  期刊不同于一般知识,期刊论文需要用户进行深度阅读,深阅读者的学术专业性术语浏览频率、停留时问、相关专业知识链接的频次等特征突出[15],比较容易刻画用户特征。用户的画像分为兴趣特征、身份特征和行为特征。兴趣特征主要包括感兴趣的研究类别、相关专业、关键字、论文出处(期刊、会议或者出版机构)、作者聚类以及关注的作者信息等;身份特征包括性别、年龄、职务、工作机构性质等;行为特征主要包括最近阅读的论文、关注作者以及对论文的转发、点赞行为。

  用户画像的构建分为用户注册标签特征(用户注册的时候获取的特征)和平台行为特征(用户过去在平台的一些行为日志)两种。

  (1)用户注册标签特征。

  这部分特征是原始获得的,一般不需要经常手动修改或者计算修改。

  账号注册信息:注册的时候可以让用户填写身份证信息、年龄、性别、手机号、工作机构、职称、职务,等等,针对这些信息可以对用户兴趣做初步判断。

  社交账号登录:系统可以支持微信等社交账号登录,也可以通过这些平台得到部分用户画像信息,在运营阶段还可以同这些平台进行数据交换。

  调查数据:当用户初次进入时,都会有一个感兴趣的研究领域勾选的按钮,这是为了解决冷启动的一个手段,在推荐之前先通过用户标记获取用户信息。

  (2)平台行为特征。

  结合文献[16]提到的用户行为元素和用户行为轨迹分析,本文平台行为特征是指用户每次登录后记录的行为数据,包括用户历史的浏览记录,如用户关注了医药卫生、基础科学、工程科技等哪些类目的文章。用户行为轨迹分析包括用户在平台上的一些反馈,如评论、点赞、收藏等信息。

  期刊获取了以上用户的特征信息,存储到日志数据库中形成用户行为数据,将对模型训练起到重要作用。

  3.2 文章内容特征

  现在数字期刊都在各自数据库中对文章做了规范的标注,包括题名、作者、关键词、摘要等信息。用户通过标题和摘要可以判断论文内容的相关性,以及是否深入阅读。这些都可以作为文章内容的特殊属性和关键特征。推荐系统可以多维度对文章进行刻画特征,例如每次新增期刊文章时,可以在原来规范的标注基础上加上额外的标签,如分类、出处等。标签一般分为文章内容自身特征标签和平台关联行为特征标签两种。

  文章内容自身特征主要指内容自身的属性,包含以下内容:

  (1)内容所属类别,分多个级别标签,比如一篇交通运输类论文,可以标为科技,科技下一级还可以标为交通。这个标签可以利用关键词提取或者文章内容识别,依靠算法实现。

  (2)论文标题、摘要、关键词。

  (3)内容主体识别,标记出文章包含哪些主体,比如针对正文这句话“推荐系统已经成为现代信息社会人们获取信息的重要技术手段”,可以从中找出“推荐系统”“获取信息”“技术手段”这3个主体。

  在当前大数据环境下,互联网中的海量信息实体所属的类别众多,且新的类别不断出现,很难利用人工方法确定一套固定完备的类别体系,所以互联网在推荐系统中都要用到内容主体识别来解决这些问题。在期刊推荐系统中,也需要解决大量的实体类别问题。文章的内容主体识别主要是文本分析,可以通过人工智能(Artificial Intelligence,AI)技术领域的自然语言处理(Natural Language Processing,NLP)[17]学习文本序列特征,获取上下文关键信息[18],提高推荐的精细化。

  (4)关联信息,包括文章的发布时间、期刊名称(会议名称)以及是否有地理相关性的特征。

  平台关联行为特征主要指文章内容在平台上历史被引用、点击、点赞、收藏、转发等信息。

  上述这些标签是推荐系统的必要前提,对于揭示学术论文的内容特征十分重要,属于论文的“内部获取信息”,应该被充分利用。如果没有标签,就无法得到用户兴趣标签,也就无法完成推荐系统的重要功能—实现用户兴趣建模。

  3.3 环境特征

  期刊推送还需要考虑环境特征。移动互联网时代的推荐行为,用户可以随时随地移动、实时研究热点的变化,这些都要在推送系统中予以体现,例如,举办召开了某领域专家论坛或重要学术会议,就要实时推送与该论坛或会议主题相关的文章内容。

  3.4 推荐候选集生成

  当收集了文章内容特征、用户画像特征后,就组成了推荐系统平台上的期刊总库和用户总库。这两个总库共同构建了模型训练集,能够汇总行为日志,之后再通过推荐算法训练一个模型来进行文章推荐。推荐系统通常都会使用多种推荐算法,期刊要根据推荐业务场景综合使用协同滤波算法、基于内容的算法[19]等进行离线计算和模型训练。

  离线推荐是通过后台设定的离线统计算法和离线推荐算法来对用户产生的行为日志进行周期性的统计,统计后的结果为前台或者实时分析提供数据支撑。离线推荐能够充分利用硬件计算资源,处理大量的数据量,但是不能及时响应用户的需求,实时性不高。

  在线推荐是当用户发出请求后触发。利用在线推荐模型,原则上可以将每个用户在期刊所有文献的兴趣点预测一次,然后实时获取排名前N条推荐数据。但是推荐系统很少采用这种方式,当期刊文献数量过多时,如果直接用模型计算结果进行推荐,就会出现时间过长或者计算量过大等问题,用户体验不一定很好,所以一般要先通过召回策略筛选出部分推荐候选集,然后通过推荐模型对召回候选集数据进行预测,得到用户感兴趣的文章排序列表,再推送给用户。推荐候选集生成的具体流程见图2。召回策略候选集可以通过用户画像标签从内容总库中快速查询获得。



图2  推荐候选集的生成流程

  召回策略:可以通过用户画像标签从内容总库中快速查询获得。如果新用户的召回资源不够,可以使用冷启动服务进行召回。

  过滤、融合:可以通过确定一些人工规则,如期刊发表时间、所属学科领域等,过滤掉不符合条件的数据条目。将不同召回集进行融合,可以提高推荐策略的覆盖度和精度。

  排序:按照特定预估目标对召回集统一排序,多数是选用机器学习的模型作为排序方法。

  3.5 展示时机与展示方式

  当得到推荐结果后,展示、排序会对最终效果产生巨大的影响。文献[20]设计了三种文献细分检索栏目。期刊的推荐系统栏目可以设计为热门文章推荐、为你推荐、关注作者、其他用户喜欢等。在每个栏目中,要设计适合特定场景、具备美感、易于交互的推荐条目。交互设计要简洁流畅,便于用户进行推荐条目的浏览和筛选;推荐条目一定要包含在视觉上可以被用户感知的视觉要素,对于推荐的文章来说,必须展示的视觉要素有标题、分类等,可选择展示的视觉要素有来源、更新时间、评论数等。视觉要素直接影响用户对文章的认可程度,并决定用户的下一步操作。

  在进行期刊推荐展现设计时,需要注意以下几点:

  (1)由于期刊是学术信息,所以给用户展现的视觉要素要真实,不能夸大失实。

  (2)需要尽量包含足够多的核心和关键信息,比如文章关键词、作者等。

  (3)要在一些推荐信息中增加信息采集点,为推荐系统提供用户反馈信息,为推荐算法提供输入数据。

  (4)借鉴互联网信息推送方式,为期刊推荐系统建立信息的主动推送服务,让一些精确信息直接以消息通知方式推送给用户。

  4 数字期刊推荐系统的运营建议

  4.1 充分准备资源数据


  对于数字期刊来说,推送系统的资源数据类型不仅仅是传统的文献资料,更多的是图像、音频、视频以及各类知识数据。资源样态越多元,越有利于推送信息的深度加工。可以利用图、文、声、视等形式将期刊数据推送给目标用户,加强其感官冲击,形成浅阅读。然后再附加内容模块延伸及深度知识链接,使用户从浅阅读过渡到深阅读方式,增加用户黏性。

  为实现数据的多样性,可以将现有期刊数据与中国知网等大型数据出版平台进行对接,实现数据共享。在推荐时,注意浅阅读与深阅读方式的有效衔接。

  4.2 根据期刊实际情况选择技术实现方式

  建设成本是期刊推荐系统运营中面临的重要问题,如果要制作一套完备的数字期刊推荐系统,则需要由独立的技术公司为其建设,并承担后期的数据挖掘和个性化服务工作,投入成本很高。

  如果某一种期刊定制自己的推荐系统,可以采用本文的推荐框架;如果没有专人建设、维护和运营,可以先找独立技术团队外包定制建设一套适合自己的系统,后期再投入期刊工作人员进行维护和运营,这样投入成本会较低。

  4.3 精细化运营管理

  推荐系统让读者增加了获得期刊信息的新途径和新体验。但是,这项工作技术含量较高,需要运营人员投入一定的精力和工作方法才能将推荐系统做好,因此,在运营过程中需要注意以下几点。

  第一,及时调整推荐策略和方法。要根据推送的反馈信息及时调整推荐场景及推荐策略,还要在实践中不断调整推送算法的参数配置,使用户画像更加准确,有助于细分用户群、培养忠实读者。

  第二,注意差异化。要想制作出好的期刊推荐系统,需要从差异化入手,努力挖掘空白研究领域。同时,要对每个知识领域也做到精细化分类,还要关注读者群体的差异性以及用户行为的差异性。

  第三,重点考虑读者的社交性。要提供推荐内容的分享转发入口,便于利用读者的社交传播进行二次传播。

  第四,推荐系统的完善需要迭代过程。推荐系统的构建和实际业务场景的关联性很强,要不断根据本身的业务尝试推荐系统的优化,推荐系统的指标体系构建也应与业务深度融合,不能单纯根据点击率、关注度等短期指标为用户推荐期刊信息,同时也要密切关注新技术的发展,对数字期刊推荐系统进行持续迭代开发。

  5 结语

  移动互联时代的到来和大数据运用的普及,推动数字期刊不断在个性化、精准化的深层次服务上取得突破[21]。随着人工智能、深度学习、知识图谱、强化学习和可解释推荐等新技术在推荐系统中的广泛应用,如何将这些研究成果快速应用到数字期刊领域,将是期刊出版建设未来的发展方向。

  参考文献

  [1]刘红.国际学术期刊数字化发展趋势及思考[J].中国出版,2017(3):60-64.

  [2]王杨,李琳.基于读者体验的科技类期刊精准推送质量评价与控制[J].编辑学报,2019,31():130-132.

  [3]黄延红,侯修洲.科技期刊全流程数字出版平台的构建[J].中国科技期刊研究,2020,31(1):51-55.

  [4]虞哲英,关贝,昝道广.一种不依赖用户行为数据的科研文献推送系统[J].文献与数据学报,2019(2):76-89.

  [5]李苗苗,尹亮亮.高校学报微信公众号视听运营的创新探索:以我国卓越大学联盟成员为例[J].出版广角,2020(19):67-69.

  [6]劳万里,向琴,舒文博,等.今日头条号的特点及在科技期刊中的应用现状[J].编辑学报,2020,32(4):457-460.

  [7]赵鑫,李金玉.我国科技期刊短视频营销推广的现状、问题及对策[J].中国科技期刊研究,2020,31(8):915-922.

  [8]郑泉.媒体融合时代提升科技期刊精准传播能力的对策与思考[J].编辑学报,2020,32(2):188-190.

  [9]陈培颖.精准推送提升传播效能[N].中国科学报,2018-04-27(003).

  [10]张建军,庄颖,张俊敏.TrendMD:一种文章推送服务对提高中国期刊国际影响力的借鉴[J].首都医科大学学报,2020,41(6):23-27.

  [11]苗晨霞.学术出版界的未来走向何方?[EB/OL].(2020-09-25)[2020-12-21]..

  [12]田文博,陈禾.国际学术出版推广新工具使用初探:以Kudos、TrendMD为例[J].科技与出版,2018(6):111-114.

  [13]张宇航,姚文娟,姜姗.个性化推荐系统综述[J].价值工程,2020,39(2):287-292.

  [14]BEEL J,GIPP B,LANGER S,et al.Research-paper recommender systems:A literature survey[J].International Journal on Digital Libraries,2016,17(4):305-338.

  [15]赵庆来.学术期刊精准传播平台构建与内容推荐[J].中国出版,2020(5):23-27.

  [16]张继东,王蓉.基于用户行为感知的数字期刊服务推送研究[J].情报科学,2019,37(5):19-24.

  [17]李志.基于深度学习的学术论文推荐研究[D].南京:南京航空航天大学,2019.

  [18]王立才.上下文感知推荐系统若干关键技术研究[D].北京:北京邮电大学,2012.

  [19]周文敏.基于聚类的协同过滤推荐算法及应用研究[D].北京:中央民族大学,2017.

  [20]陈培颖,任艳青,欧彦,等.科技期刊强化宣传推广的若干策略[J].中国科技期刊研究,2015,26(8):886-891.

  [21]邓杭.算法推荐的风险防范和导向管理:发挥算法推荐对网络舆论的正向价值[J].新闻战线,2018(11):62-64.

国家广播电视总局 | 湖北省人民政府 | 中国邮政集团公司 | 武汉市人民政府 | 中国期刊协会 | 中国图书进出口(集团)总公司 | 中国邮政集团公司报刊发行局 | 湖北省广播电视局 | 湖北日报传媒集团 | 长江广电传媒集团 | 长江日报报业集团 | 知音传媒集团 | | 湖北中图长江文化传媒有限公司 | 决策信息网 | 湖北新闻出版广电传媒周

copyright(c) 2013 湖北省新闻出版局 版权所有 技术支持

鄂ICP备19004605号-4  鄂公网安备 42010602004016号