学术期刊尝试众包同行评审，初期成效显著_中国（武汉）期刊交易博览会（刊博会）

　　同行评审的作用理论上相当于科学界的卫生检查。由一些经验丰富的科学家对提交的论文进行审核，如果论文能够经得住他们客观公正的反复推敲，就能获得发表。不过，同行评审环节中的一些问题也不容忽视。

　　近日，德国学者、同时也是学术期刊编辑的本杰明·李斯特（Benjamin List）和他的研究生助教丹尼斯·霍夫勒（Denis Höfler）共同想出了一个办法，来提升同行评审的效率。他们称其为“优选众包同行评审”。

　　同行评审的弊端

　　从期刊编辑的角度来看，一个略显刻薄却又不失准确的看法是这样的：一些有权提前阅读论文的老人家，根据他们审稿时的情绪状态、吃药情况以及记忆力的好坏，论文评审结果会是以下三种情况之一：

　　• 一种情况是，这些老人家把论文的事忘了个干净，徒留作者等到海枯石烂——要知道，学术成果的多寡可是和已刊发的论文数量挂钩的，论文被延期就意味着该阶段科研成果为零。

　　• 还有一种情况就是，尽管这些老人家记得论文这回事，但他们并不重视，只留下一堆疑似随机写就的空洞且毫无帮助的评论。

　　• 最有（糟）趣（心）的情况莫过于，某些评审发现，作者的研究成果恰好是自己想做的，那么他哪怕一辈子只做评审，也绝不会让论文发表。

　　同行评审过程中极大的不确定性会使人抓狂。论文延期会让编辑抓狂，同时相关的评审负担也会加重。即便人人都尽自己最大的努力，但上述三类评审能够对论文全盘否定，导致编辑不得不重新审视自己的决策——但是，没有一个编辑会愿意这么做。

　　一项新的改进举措

　　笔者想要表达的核心观点是，同行评审工作负担太重，而且有时候几乎毫无意义。

　　那么，有什么改进方法吗？

　　主流的思路是去调整评审的流程。对此很多学术期刊都进行过尝试，尽管都收效甚微。出版后同行评审（即先发表论文，然后再由科学家去审议）不失为一种替代办法，但这很大程度上依赖“群体参与度”。

　　况且，万一某人的论文干巴巴的，发表后评论区长草的话，出版前同行评审将会是该论文唯一确定被人读过的时机。

　　鉴于此，李斯特（化学期刊 Synlett 的编辑）和霍夫勒召集了100位学者参与一项审稿试验。他们搭建了一个论坛式的评论系统，评审人可以对提交的论文进行匿名评论，还能就彼此的评论加以讨论。

　　作为对照，这些提交到论坛的论文同时也在用传统方式进行同行评审。论文作者和期刊编辑共同对两种方法的孰优孰劣作出客观评价。结果是：百人组胜出。

　　尽管编辑认为，将论坛上的评论进行整合写入报告比较麻烦，但就总体而言依旧十分高效，论文作者对此更是深表满意。尤其是百人组只要几天就能完成的评审，传统组则通常需要4——6周。

　　更为重要的一点是，相较于传统的两至四人组而言，百人组的评论明显更有分量，且更为实用。虽说到目前为止李斯特团队还没有正式发表试验的结果，但即便如此，Synlett 期刊已经开始对所有投稿的论文启用了这项新的评审机制。

　　为什么众包评审更有效？

　　现在回到和编辑相关的话题上来。这里不妨用将传统的同行评审比作模拟信号中的“噪音”。模拟信号中的噪音可不仅仅是底噪，还包括信号产生过程中不可避免的噪音。区别之处在于噪音量和信号量的大小对比。

　　在极低频信号中，监测到的都是噪音，但在非常高频的信号中，噪音几乎可以忽略不计，即便在总量上这里的噪音要高于极低频信号当中的噪音。

　　诸位令人尊敬的同行们，他们有时并不严谨的评论也被当作客观的对待，借由上文中并不贴切的噪音的比喻，在一个四人同行评审小组中，有两位发出的是噪音；相比之下，百人团队里可能只有十个人发出噪音。从总体上来说，10个人的数字大于两个人；但是在百人的大环境下，论文的优劣会更一目了然。

　　上文中不是刚提到说，审稿人已经过劳了吗？这样一来，会不会加重他们的负担呢？其实并没有。经由这一方式进行评审的论文会发表在 Synlett 期刊上，且稿件延误的时间从数周降至数日，同时论文作者也纷纷表示评论走心。

　　由于论坛是开放式的，因此每一个评审都能看到评论区盖的楼（之前评审留下的评论）；而且因为评论区迟早要关闭，因此评审只有两个选择，要么现在就写评论，要么永远不要写，没可能把编辑晾个三礼拜再来通知：“哎呀，我没时间呢”。

　　笔者认为，众包评审（之所以能成功）还有一个心理学上的原因。当评审是两至四人小组的一员时，他内心深知，有百分之七十五的评论是在扯淡（显然是另外几位在扯淡而不是自己），因此他必须“慢慢来”、“谨慎行事”。

　　时间陷阱

　　评审工作的耗时体现在以下几个方面：首先，论文中所涉及的知识很难全部落在评审人的知识框架内。因此，评审人熟悉的内容会审核得飞快，只需稍作考量，便可给出一针见血的评论。可一旦碰到不熟悉的内容，审稿的速度就不得不慢下来，一点一点去弄清楚。

　　因此，审核的结果通常是洞见中夹杂着胡乱猜想的混合体。

　　举个简单的例子。

　　论文作者在引言里写下一段陈述，并就该陈述引用一个出自早些时候的论文作为论据。倘若评审对该内容了如指掌，那么对于被引用的内容便不会陌生，做到速战速决。

　　倘若该陈述所涉及的内容恰好是在评审人知识体系的边缘呢？这时，评审人不得不作出选择：要么尽职尽责，顺着引用一路看过去；要么把宝押在其他几位身上，说不定他们中的谁是这方面的权威呢？

　　众包评审则不同。每一位评审员可以专注于自己深耕的领域，并给出中肯评述，与此同时还可以看到其他同行给出的评论。这不仅避免了重复劳动，也让评审人不至于要一头扎进自己并不熟悉的领域。倘若某位评审员搞错了某个概念，其他人还可以很快进行纠正，可以说整个评审过程更接近于集体讨论。

　　然而众包评审并不一定每次都能节省时间。从笔者的以往经验来看，需要重新梳理的工作还是存在，这不可避免，且没有近路可以走；但不同之处在于，众包评审员可以只做他自己熟悉的那一小部分，并将之看作为对整个评审过程的贡献。

　　结果正如李斯特的报告所言，众包评审给出的评论会比传统的同行评审给出的详细许多。

　　糟糕的论文会死无全尸，而优秀的论文有很大的几率通过评审阶段。对于作者而言，因一家之言被拒的概率大大降低，皆大欢喜。

　　问题并非全都迎刃而解。规模扩大后会怎样？李斯特获得的如此积极的效果，会不会只是对新生事物的一时兴趣导致？如果真是那样，那么要不了多久，匿名论坛就会变成一座鬼城。编辑不得不重新去叨叨龟速评审。

　　关于扩大规模的问题则更难回答。但从某种程度上说，笔者认为这能行得通。因为众包可以将压力均匀分担在每一位审稿身上。但是笔者并不对此抱有太大的信心，毕竟有许多替换同行评审的手段都被试过了，但并没有哪一个真的脱颖而出。

业内信息

学术期刊尝试众包同行评审，初期成效显著