【摘 要】[目的]提出大数据时代我国科技期刊发展的方向,为提升科技期刊竞争力提供有益借鉴。[方法]采用文献分析法系统分析我国科技期刊在大数据应用方面存在的问题,并结合抽象演绎法提出构建科技期刊大数据体系的方法。[结果]对科技期刊出版业来说,大数据不仅改变了出版流程,使其得到完全重构,也改变了传统的出版模式,使科技期刊在原始积累的基础上不断创新,催生出全新的发展道路。[结论]建议科技期刊从资源整合优化、完善知识内容标引、提供个性化精准服务、加强融媒体出版和加强版权及数据安全5个方面与大数据应用相结合,提升自身竞争力。
【关键词】大数据分析;大数据体系构建;数据资源整合;知识内容信息;数字版权保护
大数据(Big Data),又称为巨量资料。2014年5月我国工信部发布了《大数据白皮书》,把大数据定义为大体量、结构多元并且具有强时效性的数据[1]。大数据具有体量大、速度快、样态多、价值巨大但密度很低,以及真实可靠等特点[2,3],因此,其对众多行业产生了颠覆式的影响。但对于出版业而言,则是挑战与机遇并存[1]。一方面,目前国内大部分学术出版物仍采用传统出版模式,处于以印本为主,数字化出版为辅的发展阶段,在面对互联网的冲击时,该发展模式逐渐萎缩,甚至陷入发展困境;另一方面,大数据通过挖掘、分析和运用功能,完全渗入学术出版业的各个环节,使其进入“产业重构时代”。因此,大数据在出版流程优化,实现各种媒介资源、生产要素有效整合等方面受到了出版界的广泛关注[4]。一些学者通过阐述大数据的主要特征及国内外大数据的发展与应用现状,分析了大数据给出版业带来的挑战和发展机遇,并为我国出版业应对大数据发展提供了借鉴性建议[5,6,7];一些学者对大数据在出版流程再造中的价值、经验及应用实践进行了研究[8,9,10,11,12,13];还有一些学者围绕大数据时代对编辑人员的挑战和培养开展研究[14,15,16]。从以上分析可以发现,未来大数据技术将逐渐成为学术出版业的核心竞争力。因此,系统研究大数据技术对科技期刊发展的影响,找准科技期刊所面临的挑战与机遇,可以充分发挥大数据的优势,在满足科技期刊自身发展的前提下,为科技期刊的可持续发展提供动力。
1 科技期刊在应用大数据时遇到的问题
面临着大数据时代的深化改革,传统的科技期刊该如何应对,这是关乎期刊未来发展的关键问题。那么,在如此巨大的挑战下,中国科技期刊将面临哪些实际问题?
(1)有效数据获取难。数据挖掘是大数据应用的重点之一,而只有使用有应用价值的数据,才能得到可靠的大数据分析结果。因此,如何获取有效数据,是大数据实际应用中的难题。对于科技期刊而言,数据类型包括内容数据、读者数据、市场数据和交互数据等形态,而期刊编辑一般只能获取期刊的浏览量、下载量及销售量等数据,无法获取用户的身份、浏览时间、研究兴趣以及一些交互数据,这些关键信息均被大型商业数据库所掌握。这对科技期刊的选题策划、精准推送等产生了严重影响。
(2)数据分析模式建立难。除了收集可分析的有效数据外,如何建立有效的数据分析模式?建设难点有哪些?这也是科技期刊面临的巨大问题。第一,数据分析从“内容”到“内容+推广”的转型难[17]。传统的数据分析只能针对已有作者及其论文进行分析,而不能对潜在数据、内容及知识进行深入分析,而且无法准确获取用户需求,并进行细分推广。在大数据背景下,要求科技期刊针对不同用户的多元化需求,为用户提供基于期刊内容并超越期刊载体的增值服务,如近些年,我国部分科技期刊实现了HTML展示,但并未对其开展深度标引服务,无法满足读者需求。这就需要科技期刊不断调整自身的定位和发展模式,创新自身的呈现形式与传播模式,保持在科学交流体系中的关键性角色。第二,数据分析从“数据至上”到“数据分析+人工决策”的转型难[18]。大数据的出现,使科技期刊面对的信息环境发生变化,很多科技期刊认为只要将所得到的大数据分析结果进行应用即可,但忽略了其只是一种辅助性工具的事实。在面对一些重要选题、时政热点等内容时,不能仅依靠对以前数据的分析,还要注意数据分析的时效性,并充分发挥编辑/专家的主观能动性。
(3)平台对接实现难。近些年,中国科技期刊取得了令人瞩目的成就,但从国际环境和我国科研发展态势来看,我国科技期刊总体处于“小、散、弱”状态,无法实现信息共享。而国际著名科技期刊出版机构Elsevier、Springer Nature、Wiley等综合了视频音频推送、文献统计分析、个性化定制等功能,成为研究人员获取信息的主要途径。因此,要更好地应用大数据,就需要有功能强大的集群平台,能够实现各渠道信息的共享,能够实现数据的深度挖掘与分析,能够使结构化与非结构化数据库进行对接,从而实现走向跨媒体的复合出版,最终为用户提供优质服务。
(4)版权与数据安全维护难。整个出版链的数据安全是科技期刊面临的重大挑战[17]。对于科技期刊而言,投审稿平台和传播平台是整个出版链的主体,随着网络技术的快速发展,科技期刊主体在网页上的所有信息均会被收集、分析,从而成为大数据的一部分,这些数据就成为不法分子的攻击重点。这也对科技期刊出版提出了如下挑战:①如何加强数据安全理念?②采取哪些有效的数据安全策略,可以提升自身数据恢复能力?
另外,虽然目前我国现行版权法及相关法律认为,利用大数据挖掘技术形成的作品创意不产生侵权问题,但一些网络作者通过挖掘技术创作的作品,或者超出“合理使用”的范围使用他人作品,则会侵犯原作品作者的著作权。那么,如何制定合理的版权转让协议,最大限度地保护作者权益?如何限定“合理使用”的范围?这些都是科技期刊需要解决的问题。
(5)人才队伍建设难。随着出版模式的变化,科技期刊也面临着巨大的可持续发展压力。在目前编辑部人员构成中,缺少数据开发与分析的人才,难以运用大数据分析结果去开展内容经营和服务经营相结合的多元化服务。
2 科技期刊大数据体系构建
对新闻出版行业而言,大数据体系的建构是一个集数据采集、标引、计算统计、建模、服务于一体的数据体系[18]。具体到科技期刊,要根据期刊所在研究领域,整合该领域的各方数据资源,通过大数据计算与分析,将得到的结果应用于科技期刊的数字化、多元化及数据化服务,从而协助传统科技期刊实现转型升级(图1)[18]。

图1 科技期刊大数据体系构建流程(参考文献[18]进行修改)
(1)加强资源整合优化,注重数据采集的精准性。科技期刊的核心业务是为社会提供有价值的内容,是内容的审核者与传播者[19]。我国科技期刊的传统出版模式在几十年的发展中积累了大量专业权威的出版数据;在数字化出版过程中,一些内容资源通过数字化和碎片化的形式转化为内容数据;在“互联网+”背景下,用户的浏览情况也会产生海量的内容资源。上述数据均为大数据应用提供了丰富的数据资源,均可精准地体现用户特征与需求,是科技期刊内容传播的导向[19]。因此,构建完善的科技期刊生态系统不仅能够保证内容资源的来源与质量,还可以通过数字化产生专业的附加产品,从而增强用户黏性,为用户提供更加便捷、周到、专业的服务。
对于我国科技期刊来说,若要加强资源整合优化,构建属于自身的内容生态系统,就要构建有影响力的生态系统——领域期刊集群,这是构建科技期刊大数据体系的基础。通过领域期刊集群可以获取本研究领域的丰富数据资源、制定完善的营销策略、利用互联网技术整合优化资源,打造符合读者“共享”需求的全新产品,探寻精准的数据挖掘及分析技术,进而提升期刊核心竞争力。具体来讲,期刊集群通过与第三方数据库、营销商的合作,向特定用户进行知识宣传与推广,利用其特有的优势对相关内容展开深度挖掘,进而培养和拓展用户群,从而吸引作者和读者。
(2)完善知识内容标引,实现大数据内容链接。知识内容标引就是对采集的海量数据按照科技期刊的知识内容及拓展内容进行标引,这是科技期刊服务于用户的关键步骤。完善知识内容的标引链接功能,可使信息内容立体化、网络化,提升知识服务的容量和质量,增强用户的信息获取能力,实现无障碍阅读,从而提升学术成果的传播力和影响力[20]。知识标引已经成为科技期刊多元化服务的重要环节与未来发展趋势。目前,国内科技期刊知识标引还处于起步阶段,较为显著的标引功能是作者所属单位和参考文献完整信息的标引,但很多期刊也只有简单的链接,并没有可自动识别、提取相关信息的标引功能。而应用标引首先需要建立一套完整、权威、被用户广泛接受的应用知识体系,这不仅需要科技期刊的专业知识优势[20],同时需要大型数据库的支持,因此科技期刊主管主办单位应该从源头抓起,协助科技期刊进行深入的知识标引服务,缩短与国际知名期刊的差距。
(3)发挥大数据分析优势,提供多元化精准服务。利用大数据分析技术,对不同用户需求进行深入分析,这是科技期刊数字化建设的重要途径。对此,我国科技期刊要积极拥抱大数据技术,掌握不同用户的浏览、阅读记录,通过深入分析用户的知识需求,提供个性化的定制方案,以开展更有效的精准推送。另外,可以整合从各方获得的数据资源,在知识服务平台中为用户提供检索和阅读、热点分析、知识关联分析、数据挖掘分析等服务,构建知识图谱,为用户提供知识化、数字化、智能化服务[21]。大数据时代,科技期刊重塑的出版流程被称为智能化出版流程。在选题策划方面,科技期刊可以基于海量的数据资源,采用数据挖掘与人工识别的方式,迅速定位目标读者群体,选择热点研究方向及重要作者,得出更加科学的选题方案[22]。此外,科技期刊还要利用大数据技术,积极尝试新的内容生产和传播模式,如结合微信、微博、期刊网站等新型传播途径,为用户提供可视化内容的呈现与推荐,从而实现内容与服务的全面数据化,最终提升传播效果。这样不仅能充分满足读者的多元化需求,而且能够有效避免因不了解读者需求而开展的无效工作,同时可以充分调动读者使用融媒体平台的积极性,进一步提升读者对期刊的黏性[23]。
(4)完善内容展示方式,加强融媒体出版。在大数据环境下,读者接收到的知识越来越多,对于多媒体、跨平台的数字内容资源的需求也越来越大。因此,便捷式、碎片化呈现的知识成为读者的首选内容。为了满足读者需求,国际科技期刊选用适应碎片化阅读的HTML展示方式,并在HTML页面添加作者身份标识(ORCID、ResearchID)及全文链接网页,使读者全面了解作者的全部研究成果及其合作者网络。另外,一些优秀期刊还在HTML全文页面单独展示与文章相关的数据集、音视频等补充材料,以丰富和延伸文章内容,为读者提供更全面的知识服务。因此,建议我国科技期刊发布完整的作者身份标识注册说明,制定完善的论文增补材料规范,在HTML页面设置上增加上传补充材料的模块;同时,加强与其他权威数据库、期刊集群平台等的合作,逐渐实现增强出版。
(5)强化内容资源安全意识,注重数字版权保护。在全媒体时代,科技期刊数字化出版是一种以互联网为核心载体的新兴出版方式,而如何实现数字版权的合理利用和有效保护,始终是业内聚焦的关键点[24]。对我国科技期刊而言,首先要做好作者关键信息的保护工作,要求期刊平台管理公司加强网络安全设置,避免作者保密信息泄露;其次,积极探索国际先进的数字版权保护理念,并结合我国国情,建立详细的数字版权政策;最后,设计详细的版权转让协议,既要保护作者的合法权益,又要考虑期刊的发展模式,以此为根基谋得更大的发展空间,深入挖掘数字内容资源。
3 结语
面对全新的大数据环境,我国科技期刊出版业要迅速转变发展理念,积极探索新型发展模式。在充分利用已有数据资源的基础上,从内容生产、多元化服务与推广等维度入手,充分发挥大数据技术的优势,创建全新的出版流程,从而提升期刊的核心竞争力,迅速缩短与国际知名科技期刊的距离,这也是新时代我国科技期刊的发展方向和必然趋势。
参考文献
[1]中国电子技术标准化研究院.大数据标准化白皮书[EB/OL].[2020-01-09].http://www.cac.gov.cn/files/pdf/baipishu/BigdataStandardization.pdf.
[2]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J].中国科学院院刊,2012,27(6):647-657.
[3]维克托•迈尔-舍恩伯格,肯尼思•库克耶.大数据时代[M].周涛,译.杭州:浙江人民出版社,2013.
[4]刘银娣.大数据时代图书出版业面临的机遇与挑战[J].科技与出版,2015(1):21-25.
[5]陈鹤杰,闫强.基于大数据技术的热点事件图书舆情研究[J].科技与出版,2019(4):83-85.
[6]姚戈,史冠中,王淑华.大数据时代科技期刊APP应用分析及媒体融合发展探讨[J].科技与出版,2017(10):61-65.
[7]莫远明,黄江华.AI+IP+TT视野下的数字出版融合发展研究[J].出版广角,2018(1):23-25.
[8]于志涛,韦文杰.大数据时代数字出版产业链的变革与重构[J].科技与出版,2016(2):76-79.
[9]刘华东,马维娜,张新新.“出版+人工智能”:智能出版流程再造[J].出版广角,2018(1):14-16.
[10]周洁.利用大数据优化科技期刊出版流程的实践与思考[J].中国科技期刊研究,2018,29(2):144-147.
[11]狄野.大数据语境下数字内容产业发展的思维变革——以数字出版为例[J].出版发行研究,2017(2):39-41.
[12]杜贤.“互联网+”时代的选题策划[J].科技与出版,2017(2):47-50.
[13]周翔,秦晴.大数据背景下学术期刊知识管理创新与国际影响力提升[J].出版广角,2018(5):12-15.
[14]石朝雄.数字化时代传统出版社的变革与编辑转型[J].出版广角,2019(7):37-39.
[15]罗飞宁.人工智能时代:编辑的能与不能[J].出版广角,2018(14):41-43.
[16]吴美英.大数据时代学术期刊编辑素质重构与能力提升[J].出版科学,2017,25(1):47-51.
[17]杨婧.大数据对出版业的影响及应用分析[D].西安:陕西师范大学,2015.
[18]张佳倩.新闻出版业大数据体系构建[J].传播力研究,2019(22):143-144.
[19]张濮,赖青.面向出版企业转型的客户数据管理[J].科技与出版,2018(12):104-109.
[20]张新新.新闻出版业大数据应用的思索与展望[J].科技与出版,2016(1):4-8.
[21]田军.新闻出版业大数据运用的新业态研究[J].传播与版权,2017(8):47-49.
[22]秦艳华,郝丹.新闻出版业用户行为跟踪大数据的开发与应用[J].科技与出版,2017(11):131-135.
[23]付达杰.大数据环境下数字教育资源特征及其供给策略[J].伊犁师范学院学报(自然科学版),2017,11(4):75-78,96.
[24]赵合,薛蓉娜.亚马逊数字出版全球化策略及启示[J].出版发行研究,2017(11):23-26.