机器学习领域在过去的十年时间里取得了非常了不起的进步。从机器翻译,到语言理解,到计算机视觉,到自动驾驶,到 AlphaGo,到电子游戏(例如 DOTA)等等。
这一系列的快速进步背后最大的推力可能就是,学术研究领域越来越强调所谓的「win」文化:新发表的方法必须在某个给定的任务或基线上超过之前别的方法。这意味着我们已经把学术社区逐渐变成了一个有着明确判定输赢的场地。
反思一下,科学的目的不是为了胜利,而是为了知识。
因此,当我们不断在各种测评中取得越来越高的分数时,或许是时候该警惕了:我们已经受到「赢者诅咒」。
雷锋网注意到,近期来自 Google AI 的 D. Sculley, Jasper Snoek, Ali Rahimi, Alex Wiltschko 在 OpenReview.net 上提交的一篇文章《Winner’s Curse? on Pace, Progress, and Empirical Rigor》[1] 给我们明确指出了这点,作者认为实证严谨(empirical rigor)对于现在的 AI 学术社区变得越来越重要,他们针对当前的问题给出了一些颇具革命性的建议。
[1]雷锋网注:这篇文章是提交给ICLR 2018的workshop track的。
最近一年的重点案例研究
如果回顾一下过去一年的论文,就会发现一个明显的趋势(许多研究组从不同的角度做出了相同的发现):由于当前快速发展的研究工作大多只是简单的调整参数或者进行消融研究(ablation studies)[2],我们错过了许多可能的改进或深度的见解。下面是过去一年中几个研究组的一些发现:
[2] 注:消融研究,通常是指去除模型或算法的某些“特征”,并查看这会如何影响性能。例如你提出了某个结构,若想确定这个结构是否有利于最终的效果,就要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比。
- Lucic et al.(2017) 对 GAN 的近期创新工作进行了大规模实证比较。一个主要发现是,最近的大多数方法经过足够的超参优化后都能够达到相似的分数。
- Henderson et al.(2017) 表明,他们只需要对基线 LSTM 进行更好的超参调整,就可以超过一系列最新的 seq2seq 学习方法的表现,在比较热门的 Penn Treebank 数据集上获得最优的性能。
- Vaswani et al. (2017) 极好地进行了使用 attention 的独特编-解码器风格网络(exotic encoder-decoder style networks)的消融研究,它表明只需要加上 attention 模块,你就能获得更好的表现。
- Rikelme et al. (2018) 对贝叶斯深度神经网络中使用近似推理进行决策的各种近期的方法进行了比较。他们发现,在决策任务中许多最近提出的方法都只是在努力超越基线。
- Henderson et al. (2017) 评估了深度强化学习的可重复性,他们发现近期的工作在同一个任务的不同的基线上模型会有显著的变异。
以上这几例研究说明了一个问题,即如果这些领域采用更高水平的实证严谨,那么那些看似在快速发展的研究可能要比它看起来的样子慢得多。
诱因和现状
从目前的情况来看,诱使机器学习研究急剧增长的原因可能有以下几点:
- 公开可用的数据集增多,例如 Kaggle 上现在已经拥有了超过 10000 个公共数据集。
- 计算的成本降低,并且伴有大量如云计算这样的大型计算资源;
- 在该领域工作的研究人员数量剧增,这为大规模合作创造了机会;
- TensorFlow、PyTorch 等开源 ML 平台的兴起,以及由此带来的开源代码和模型的普及。
这些因素是否真的能给 ML 的研究带来真正有用的结果,可能需要历史来告诉我们了。从表面上看,这些因素本来应该促进更加强健的实证工作的,但实际情况却朝着相反的方向走去。
- 理想情况下,处理真实数据的目的是为了调整和检查算法在各种抽样分布下的行为,以便了解算法的优缺点。但现在实证研究已经变成了一个纯粹为了「win」(而不是为了深入研究和理解)而进行的挑战赛。
- 计算的价格虽然在不断的降低,但也是相对的。大型的研究组(通常是企业)可能拥有更多的资源,而个人研究者可能就会受到比较大的压力。
- 随着这个领域的参与者数量逐年增长,顶会的接受率却基本上保持不变;此外培养优秀的审稿人通常需要数年时间,熟练的审稿人数量增长远远落后于投稿人的数量增长。而另一方面发表论文又关系着事业前景,于是就会有越来越多的研究人员害怕被竞争对手抛弃,并希望能够迅速地在某个领域竖立旗帜。这种竞争所带来的恐惧感可能会抑制研究人员去花时间进行细致地实证分析。
- 当许多研究人员在某一问题或相关问题中并行工作时,即使每个人都在尽力避免,但这个领域也会出现多种假设检验的问题。
改革建议
久病难医,Ali Rahimi 等人在文中表示:「我们提出几条建议,抛砖引玉,希望以后大家以后多多讨论。」
实证评估标准 在目前的做法上,以下标准应当被鼓励、奖励,并最终成为实证工作中的要求:
- 调优方法 应该通过网格搜索或引导优化方法对包括基线在内的所有模型进行关键超参调优,这应当作为出版物的一部分进行分享。
- 切片分析 在整个测试集上进行精确度或 AUC 等性能的测量可能会掩盖其他重要结果,例如在一个区域的质量较高,而在另外一个区域的质量则较低。根据数据的不同维度或类别来分解评测指标,这是完整的实证分析的关键部分。
- 消融研究 研究中应包括对以前基线的所有变化进行全面的消融研究,对每个组分的变化进行单独测试和组合测试。
- 完整性检查和反事实 对模型行为的解释应有意识地进行完整性检查,例如对测试分布之外的反事实数据或反常数据进行分析。模型对具有不同背景的图像或具有不同人口统计分布的用户的数据的表现有多好?
- 至少一个负例 由于「没有免费的午餐」理论仍然有效,研究人员去发现和报告新方法相比旧方法表现不好的区域非常重要。只展示成功的论文应当被质疑,甚至可能因此而拒绝接收。
共享实验笔记和记录 ML 研究人员大多不会像物理等领域那样把所有的结果记录下来。但作者建议研究人员将有关论文研究期间进行的所有实验的细节和时间都保存在电子文档中,这有助于追踪研究的发现、探索和结论的全过程;同时它也可以抵消多重假设检验和事后解释的问题。
改变论文格式 在一个以创新而著称的领域,我们的主要档案传播媒介仍然以优化纸张印刷为目的,这实在令人惊讶。让我们改变这种纸张格式吧!像 iPython 和 Colaboratory 1 这样的智能笔记本,不仅可以包含代码、数据,还可以包含文字的分析,我们为什么不采用这些来作为一流的出版媒介。
会议中论文页面往往限制了作者展示更完整的实证分析的能力,或者需要花费很多页面才能完成。如果不再让纸张印刷格式限制我们,那么对于评审员来说就可以查看更丰富的内容。为了避免泛滥使用这种自由格式,要求对每个实证结果的额外页面进行一次额外的审查以及适当的审查标准质量要求。
协作和贡献分配 要实现更加完整的实证评估和分析,一般需要大量的工作,可能更多的是一大组合作者共同完成。在目前的这种通过作者先后顺序来评定每个人做出贡献的大小显然是不够的。因此建议在每篇论文中有一个附录,简要概述每位作者的贡献,作为激励这种协作的解决方案之一。
评审和评审人员标准 评审质量是提高一个领域实证严谨性的关键因素。因此建议通过为评审人员创建更好的工具来帮助他们以及领域主席来执行更高要求的评审标准,例如可以直接在文本中添加注释,创建更完整的评审评论。另外还可以为那些由于资金短缺不能参加会议的优秀的评审员提供免费注册作为奖励。
场地选择 目前会议论文的接收率通常与会议场馆的实际大小有关。因此建议通过其他媒介(包括视频和视频会议)来进行更具创造性的工作,这样就可以更为灵活地为那些不是为了「wins」而是专注于其他问题(例如深度元分析)的论文提供了接收机会。
后 记
参加过 NIPS 2017 的人应该都清晰地记得当时人山人海的壮观。Ali Rahimi 当时在 NIPS 演讲中将这称为「large waves」。也许我们真的需要坐下来认真地讨论这些问题了。
可以想见,如果Ali Rahimi等人提出的这套建议真的得以执行,很多 ML 文章都会被拒绝,意味着很多人发不了 papers,毕不了业,找不到工作。但是,人工智能领域的成长或许真的需要壮士断腕了,当然最好是少流一点血。