学术传播的数据化与智能化:2017年欧美学术出版产业发展评述_中国（武汉）期刊交易博览会（刊博会）

　　【摘　要】学术出版正在走向数据化和智能化。这场基于大数据、新平台和人工智能的转型将改变科学传播范式和出版商业模式。面对学术传播的数字未来，无论出版巨头、创业公司、还是学术机构都在积极布局，抢占先发优势。本文聚焦于数据、算法与平台三元素的互动，从科研实验数据出版、引用学术出版的未来趋势及数据共享、数据智能挖掘和新旧学术平台竞合等方面梳理2017年欧美学术出版的发展创新。文章结合学术出版的未来趋势及全球开放数据运动，对中国知识服务的发展提出一些思考和建议。

　　【作　者】任翔：澳大利亚西悉尼大学

　　【关键词】大教据，科研数据，开放数据，学术出版，平台，算法

　　虽然科研论文仍是学术传播的基本形式，但数据——无论是科研实验数据、引用数据、还是替代计量因子数据——在数字学术出版中变得越来越重要。一直以来，“出版或出局”及由此形成的以论文为核心的学术出版体系，居于难以撼动的主导地位；但颠覆力量随着新的出版范式而出现——基于大数据和人工智能的新平台模式在欧美兴起，预示着未来知识生产与传播方式将发生重大变革。2017年，越来越多的出版巨头、创业公司和学术机构都看到了学术出版数据化与智能化转型的趋势，都在积极布局，抢占先发优势。

　　本文聚焦于数据化和智能化，从科研实验数据出版、引用数据共享、数据智能挖掘以及新旧学术平台竞合等方面梳理2017年欧美学术出版的发展创新，包括学术期刊与学术图书出版。基于2017年出现的创新模式和业界观点，本文分析了在新技术环境下，数据、算法与平台三元素的互动及其对学术出版的影响。文章最后，围绕学术出版的未来趋势，并结合全球开放数据运动，对中国知识服务的发展提出一些思考和建议。

　　1、科研实验数据出版渐成主流

　　传统学术出版以研究成果的呈现为主，无论是期刊论文、学术报告，还是专著图书，其传播内容聚焦于对研究题目、方法以及发现的描述与分析，传播职能是记录研究成果并注册知识发现的优先权。在传统体系下，海量的第一手科研实验数据无法通过出版的形式传播，这一技术桎梏影响了整个学术科研体系——比如，同行评议只能对研究方法、过程和结果进行评定，却很难鉴定数据的真伪，这不但让学术不端有机可乘，也降低了同行交流的广度与深度。早在大数据时代之前，科研界对于实验数据分享的呼声就已经存在。最近5年，随着数据管理和云存储技术的发展，以及开放数据运动的深入，越来越多的出版商、科研基金、学术机构和第三方平台开始实践科研实验数据出版，其规模越来越大，模式越来越完善，影响越来越广泛。

　　数据出版正在深刻地改变学术传播——未来学术传播的核心可能不再是文章，而是数据。目前，五大学术出版商已相继推出数据出版平台。比如，爱斯唯尔利用开放科学平台Mendeley来进行数据出版；Springer Nature通过旗下的开放获取旗舰平台Springer Open为作者提供论文附件服务，即通过附加文件的形式来发表研究数据，同时为附件提供唯一DOI码（Digital Object Identifier），以便于其他学者引用，并累计引用次数和追踪使用情祝。

　　自2017年开始，Springer旗下的BioMed Central（BMC）与第三方研究数据平台Figshare合作，为旗下6本BMC顶尖医学期刊提供数据出版服务：作者在上交论文的同时，可上传数据文件到出版平台，以实现数据的网络出版。其数据出版总监lain Hrynaszkiewicz介绍说，“我们目前在Springer Open和BMC的试验仅仅是一个开始，今后还将扩大到更多优秀期刊。我们希望所有作者都能充分地使用数据出版服务，更广泛地推广他们的研究成果和宝贵的实验数据资源。这也是我们对于开放科研的承诺：通过创新性的出版政策、服务和内容模式，让更多人更广泛地受益于科研成果，尤其是二度开发、分析、使用实验数据，以产生新研究成果”。

　　Figshare是主流学术出版商实施数据出版的首选合作平台，包括自然科学领域的Springer Nature，人之仕会科学领域的Taylor & Francis，还有开放获取旗舰平台PLOS。作为第三方数据出版服务供应商，Figshare一直引领科研实验数据出版的创新。目前，它与主流学术出版平台基本实现无缝对接。这意味着，无论是作者还是读者，都可以实现从论文到数据的一键切换。

　　在2017年，Figshare进一步优化了合作出版商的工作流程，为不同出版商提供定制化的数字基础设施服务。针对预印本、数据期刊、实验数据出版以及新一代视频期刊等大数据应用，通过优化工作流程，大幅度提高了内容编辑管理的效率。Figshare同时改进了对科研实验数据使用与引用情况的计量，尤其通过与Altmetrics合作来计量“非引用性使用”，包括下载量、社交媒体转载量、二次使用等。Figshare还建立了一站式用户界面，作者通过这一交互界面可以查询自己的科研实验数据的全部使用情况。

　　除了学术出版商和第三方平台，西方大学、科研基金及政府机构也开始加大对科研数据出版的投入，用于公共平台建设、非营利性信息服务和数字基础设施。比如，澳大利亚悉尼大学的eScholarship，利用大学图书馆机构库存储和分享科研实验数据，使数据出版与学校教学科研紧密结合起来。越来越多的科研学会开始建立自己学科的数据出版平台，这些以特定学科为服务对象的平台虽规模小，数据集中度差，但易于同行分享，数据的再度使用率高。新近建成的数据检索平台Re3data.org在一定程度上解决了学科平台的数据分散问题，提升了这些平台发表科研数据的可发现性。Research Data Australia（澳大利亚数据发现服务平台）是澳大利亚政府直接资助建设的国家级数字基础设施，不但包括科研数据，也包括政府数据和其他组织分享的数据资源。其数据服务机构ANDS（澳大利亚国家数据服务）在2017年年初出版了《数据影响力》报告，提供了16个科研数据分享实例，展示了开放数据对学界、产业和社会的益处，并鼓励更多学者和机构发布科研实验数据。

　　协同合作是欧美科研数据出版的基本模式。即便是五大学术出版巨头，仅凭自身的研发能力和经济实力，都难以独立开发运营数据平台，而必须依赖第三方技术公司、政府资助或科研机构赞助。当然，在合作框架下，出版商的独特作用仍不可取代。在2017年，Springer Nature的开放科研数据与新产品发展总监Grace Baynes特别为此撰文，总结出版商在数据时代的五大重要角色：其一，向学术群体、科研机构和政府部门推广科研数据分享的价值与意义；其二，通过期刊出版政策，鼓励科学家分享科研实验数据；其三，利用出版商成熟的学术认证体系，建立科研实验数据的引用、计量和评价机制，以激励更多学者分享高质量数据；其四，为学者提供科研数据出版的一站式解决方案，使出版平台成为科研数据的入口；其五，推进并领导多方合作，共建全球化出版联盟，来推进科研数据分享。

　　2、开放数据的政策与实践

　　2017年是强制性开放数据政策元年，开放数据是开放知识运动的重要组成部分。在科研领域，开放数据的主旨是允许任何人自由免费地下载、拷贝、分析、挖掘乃至重作科研实验数据，这种免费自由的数据使用不会受到来自财务、法律和技术壁垒的阻隔。除了学术成果的开放获取，即开放获取期刊与开放学术图书，科研过程的开放——尤其是开放数据——被认为是实现开放科学的必要条件。没有科研数据的共享与自由使用，就没有合作性的数字科研体系。

　　但是，一直以来，相比开放获取出版，无论是政策层面，还是产业实践层面，开故数据的发展尚在初级阶段。由于一些技术、政策难点，比如，数据再次使用的授权与署名问题，涉及隐私的医学研究数据的发布，开放数据在诸多方面存在争议。

　　从这个意义上讲，欧盟在2017年公布的强制性开放数据政策，具有里程碑意义。它为科研实验数据的全球共享与再次使用奠定了政策基础，也让沉寂一段时间的开放数据运动重新占据了学术出版的舆论中心。

　　开放数据是欧盟雄心勃勃的Horizon 2020规划的重要组成部分。欧盟开放科研数据试点早在3年前就已开始，并在一些学科取得了积极成果。这些进展最终促成欧盟在2017年颁布了强制性的全面开放数据政策。欧盟创新与研究委员会委员Carlos Moedas宣布，从2017年1月1日起，所有欧盟成员国资助的研究项目，必须将科研数据和数字化科研成果公之于众，并开放授权，免费获取，自由使用。欧盟强调，开放科研数据是欧盟各国科学研究的默认设定（default setting）。Moedas在宣布政策的同时也阐释了它的影响与益处，“这一举措将提升欧盟的科研创新竞争力，加强合作，提升透明度，并且通过研究数据的重新使用和再度分析，最大限度地避免研究经费浪费和科学实验活动的重复”。

　　除了政府政策，开放数据逐渐取得了学者和科研资助机构的认可。2017年发布的《Figshare开放数据报告》从另一方面展示了科研工作者对开放数据的态度变化，该报告对2300名Springer Nature的作者进行问卷调查，并与2016年的同期结果进行对比。可以看出，开放数据正在获得越来越多的认可，并渐成趋势：82%的受访学者了解开放数据（去年是73%），学者分享数据的最重要动机是提升自己研究的影响力和可见度（24%），其次是公众利益（20%）；80%的学者愿意在自己的研究中使用他人的数据（去年是70%），但是仅有34%的受访者相信二手科研数据的可靠性（去年为40%）。

　　作为开放科学的支持倡导者，科研基金Wellcome Trust在开放数据领域一直位于领导地位。其开放数据政策原则“尽可能开放，但必要时也得封闭”体现了客观务实的精神，既鼓励科研人员分享实验数据，又允许对涉及隐私争议的研究数据采取封闭性管理，避免在“开放”上一刀切。截至2017年年底，由Wellcome Trust资助的研究项目中，有一半项目将研究数据公之于众，不过，目前为止还缺乏有力证据证明，科研共同体（包括学者本人）从研究数据分享中获益。从Wellcome收到的反馈看，学者仍然存在各种担忧，比如，自己的数据被错误理解、不当使用，竞争者会利用自己的数据来发表论文；同时，分享科研数据占用大量的时间和精力，这也让学者有所顾虑。作为竞争性科研基金提供方，Wellcome Trust充分理解学者的顾虑，并着手建构新学术评估机制，其核心是改革对学者贡献和影响力的评估方法，以适应开放数据环境。随着欧盟强制性开放数据政策的实施，以及科研基金方对学术评估的改革，会有更多政策层面的激励机制出现，促进科学家分享实验数据。

　　3、引用数据共享：2017的新热点

　　引用数据（citation data）共享是2017年学术传播数据化的新热点。引用数据是学术评估的基础，无论是期刊影响因子还是学者个人，H-index都是基于引用数据计算得来。一直以来，学术出版的引用数据为三大私人公司掌控：Thomson Reuters的Web of Science， Elsevier的Scopus和谷歌的Google Scholar。正规学术评估的两大基石：影响因子和SNIP，以及日益受到重视的谷歌学术索引，都以这些数据来源为基础。但是，三大引用数据来源均采取封闭性授权，让科研机构和学者无法对引用数据进行分析和再利用。而三大公司提供的数据分析服务不但价格昂贵，而且存在诸多问题，比如，无法满足科研机构的特定需求，数据和算法缺乏透明性，源数据经常出现重复和漏报，等等。正是这些问题，使开放引用数据成为学术共同体的重要诉求。

　　除了学术评估，引用数据的价值还在于，它直接记录了知识信息间的关联性，这一点在大数据和机器学习时代尤为重要。通过学术文章之间的引用联系，可以构建模型，找出知识元素之间的关联，分析预测学科发展趋势，提供个性化文献检索，以及从科学社会学角度分析科研合作、学科迁移等宏观变迁。五大学术出版巨头以各自独有的引用数据为基础，也提供类似信息服务；但是，由于引用数据分散于不同数据库中，这一割裂状态直接削弱了数据分析的全面客观。科研界希望通过引用数据共享，打破私人出版商对这一极具价值的源数据的垄断，打破个体引用数据库之间的割裂，从而更全面、更有效地进行大数据分析。

　　早在2013年，Open Citations Corpus（OCC）总监David Shotton就在《自然》杂志中撰文，呼吁开放引用数据，他说，“理想状况是，一篇论文的文献索引，在其出版的同时，就立刻开放……然后由非营利性的第三方平台进行收集、储存、索引等”。OCC是一家由英国科研创新机构JISC资助的开放数据平台，与之齐名的另两大平台是CiteSeerX和CitEc。目前三大开放数据平台总共只拥有不到5%的引用数据资源。2017年5月，OOC获得斯隆基金的资助，用于拓展引用数据规模和开发可视化及智能化查询服务，目的是提升开放引用数据的实践价值。

　　2017年，开放引用数据领域迎来了新平台Initiative for Open Citations （140C）。它由6家开放知识机构（Open Citations， the Wikimedia Foundation， PLOS， eLife， DataCite以及奥大利亚科廷大学文化科技研究中心（CCAT））联手打造，另外还有33家全球著名科研图书馆加盟，并得到了来自Mozilla和Wellcome Trust等开放创新机构的支持。这一新平台自建立之初就备受关注，根据规划，全球40%的文献引用数据会通过这一联盟实现开放共享，这将极大地提升全球开放引用数据的资源规模和应用价值。

　　4、算法时代的学术出版

　　大数据与机器学习密不可分，二者共同奠定了算法时代的学术出版。算法的核心是关联性，即内容与用户的关联性，用户与用户的关联性，以及作者、读者、内容三者间的复杂网络。大数据为算法提供了无尽资源，算法通过机器学习优化自身，服务于学术出版的智能化。从2017年学术出版的发展趋势看，大数据结合智能化算法已经成为创新热点，其技术应用越发成熟，设计开发也更加复杂精细。

　　智能化算法被广泛应用于学术内容的发现和推荐，可利用大数据资源对学者、内容和读者进行有效匹配。目前学术出版的核心问题是，学术内容越来越多，远远超过读者的阅读能力。如何帮助读者迅速、准确地找到最有价值的内容，是智能化的首要任务。从欧美实践看，大数据和机器学习的应用可以优化内容发现，比如谷歌学术搜索引擎、期刊引用率于影响因子指标等。

　　另一方面，更重要的是，新技术正在驱动新的内容评价模式。以流行性论英雄的传统期刊评价思路正在改变，而算法是促成这一改变的技术驱动力。以往，无论是影响因子，还是替代计量因子，本质都是以流行性论英雄，即一篇文章引用数量越多，下载次数越多，社交媒体提及越频繁，就越值得推荐。但是，学者的阅读需求并非由流行度决定的。2017年出现的一些新模式，尝试打破流行性范式，以新思路更个性化地匹配内容与读者。

　　创业公司UNSILO（成立于硅谷，后搬至丹麦，先后获丹麦国家创新基金和Infosys的资助）通过人工智能引擎，提升学术内容的智能管理和可发现性，其算法的核心是内容，而非内容的使用次数。它提供了一套智能化的文本提炼分析系统，来理解、管理、分类和索引出版内容；更重要的是，用人工智能建立内容、读者和知识点之间的关联。Springer Nature的首席信息官JanErik de Boer对此赞誉：“UNSILO的全自动内容加强技术，可以在学术文档中发现核心的描述性概念及用词，从而为读者提供极具价值的阅读建议，甚至可以有效匹配不同学科的专有名词，从而实现跨专业的内容推荐。”谷歌在2017年推出了新型内容分类服务，其思路与此类似。基于 “云自然语言Cloud Natural Language”平台和机器学习，谷歌新算法打破了以往简单的内容分类体系，比如使用“体育”“电影”“名人”等广义标签。新内容的分类更智能化地理解内容，并根据内容细节生成具体标签，还能结合实时热点话题，对读者进行推送。2017年的新算法体现了内容发现领域的创新态势——通过深入理解内容来进行有效推荐，不再依赖内容使用的历史数据（即亚马逊推荐机制）。

　　对读者阅读行为的分析也是应用智能算法的重要领域。2017年多家研究机构尝试利用开放获取图书的使用数据来分析学术阅读习惯。比如，Knowledge Unlatched Research （KUR）的研究报告显示，超过50%的开放获取学术图书下载来自私人IP地址，而非图书馆或大学等机构的用户，这一发现有力证明了开放获取的价值——让知识精英体系之外的普通公众可以阅读更多科学文献。KUR报告还发现，多数读者只下载感兴趣的章节，而不是下载整本电子书。这一发现，为学术图书的期刊化趋势提供了佐证，即知识传播越来越分群化和定制化，而图书的知识表现方式面临化整为零的变革。

　　大数据、人工智能和算法正在引领学术出版的技术转型，但不乏争议。算法的透明性一直是争议焦点。所有的算法都是由人设计的，从最初模型开始，就存有偏见；算法的高技术含量，使出版商、作者和大众无法轻易获悉设计中的偏见，这种偏见，轻则影响内容推送的匹配，重则危及信息公平和言论自由。所以，越来越多的学者、政府和社会团体呼吁互联网平台增强算法的透明性。另一个争议来自于爬虫程序，或者说，非人类使用者的自动化数据挖掘，这是2017年数字出版平台的一个前沿技术课题。据不完全统计，2016年全年的互联网流量中，超过一半（51.8%）是由爬虫程序产生的，而非人类用户。防范非法爬虫成为数字出版平台的重要课题，它不仅涉及网络安全、数据隐私，也关系到平台数据的可靠性，如果超过一半的数据来自网络爬虫，由此产生的大数据分析、算法和人工智能程序的效力都会大打折扣。

　　5、平台资本主义

　　私有科技企业对公众数据资源的占有让互联网平台处于舆论批评的风口浪尖。2016年年底出版的《平台资本主义》一书批判性地指出，数据是数字经济最宝贵的资源，互联网平台为用户、产品（或服务）和相关企业提供了一个互动空间，但是平台模式的本质并不是媒介（ intermediary），而是对教据资源的掌控和对数据经济价值的攫取。

　　2017年，美国哥伦比亚大学新闻传媒学院发布了研究报告《平台出版商（the Platform Press）》，对出版业发出警告，传统出版商在平台上建立自己的业务，就如同把房子建立在别人的土地上一样。这些依赖互联网平台的出版商将失去读者数据，丢掉广告收入，丢掉品牌，最后丢掉出版商的社会功能，在新知识传播体系中被边缘化。对于普罗大众而言，互联网平台带来的便利是革命性的，但不是无偿的；这种便利和技术服务伴随着巨大的代价，比如，个人隐私和数据安全。

　　学术出版同样面临平台资本主义的争议。关于学术数据的所有权和使用权，各大阵营一直争执不下，激烈辩论。有意思的是，在2017年，这一争论殃及两大商业自存储平台Academia.edu和ResearchGate。在开放获取初期，二者为学者提供免费自存储和自出版服务，成为备受推崇的开放先锋。然而，到了2017年，学者们纷纷在社交媒体上贴出关闭Academia.edu和ResearchGate账户的截图，以示与商业运营的开放获取平台决裂。

　　造或这一180度转变的直接原因是，两大平台相继推出了付费会员服务，而免费用户甚至无法获取自己上传内容的使用数据。但更重要的原因是，学者对商业平台掠夺性的占有和开发学术数据资源表示不满。正如一位学者在《福布斯》撰文指出，“把我们分享的论文从Academia.edu撤下来！这是所有权问题。应该自己掌握我们的知识成果，而不是被私营公司用于牟利”。

　　6、全球开放数据与中国知识服务

　　知识服务是中国数字出版业的热点，也被视为传统出版未来转型的方向。中国出版业的知识服务热，一方面因为传统出版业的现代化程度较低，数字创新在替传统出版还债；另一方面，国内知识产权保护意识薄弱，出版企业需要更具附加值的打包产品（内容+服务），让读者付费。

　　欧美学术出版的数据化与智能化，尤其在知识服务领域，提供了值得中国借鉴的创新思路和商业模式。首先，知识服务的基础是数据，而非内容。中国出版业似乎还没有走出“内容为王”的范式，内容必不可少，但内容过剩是不争的事实。出版人应该明白，优质内容不是由卖方定义的，而是由买方定义的；不是由抽象标准和专家意见定义的，而是由对读者的实用性和适用性定义的。所以，处于技术创新前沿的欧美学术出版业，将眼光聚焦于数据，因为只有数据才能实现作者、内容和读者之间的有效串联，只有“数据+算法”才能实现三者的高效匹配。相比而言，中国知识服务的概念超前，但实践尚需超越“内容运营”的范式，真正走向，“服务为王”，仅仅将免费内容包装炒作成付费内容，或者依靠名人的名气变现，是搞不成知识服务的。

　　第二，开放数据是欧美出版业和知识产业的共识。这是因为，数据与内容不同，只有将不同来源的数据汇总在一起，才会产生价值；而割裂封闭的数据没有价值。与欧美相比，中国数字出版的产业结构更加分散，数据资源更加割裂散乱。虽然每家平台、每家出版社都号称拥有数据，但小规模的、拘于单一平台的数据，其经济价值非常有限。推进国内知识服务真正走向“服务”的关键是，数据共享机制的建立。智能化的知识服务必须建立在有价值的大数据资源上。

　　第三，在大数据和智能平台时代，对公众隐私的保护，对数据所有权和使用权的规范是当务之急。知识服务体系必须建立在行业监管和商业伦理的基础之上；否则，短期经济增长会带来一系列长期社会问题。这需要出版行业管理部门的立法实践与顶层设计，也需要企业加强自律与社会责任感，还需要公众数字权利意识的提升。

业内信息

学术传播的数据化与智能化:2017年欧美学术出版产业发展评述