QUICK REVIEW

[论文解读] Show Your Work: Improved Reporting of Experimental Results

Jesse Dodge, Suchin Gururangan|arXiv (Cornell University)|Sep 6, 2019

Topic Modeling参考文献 38被引用 19

一句话总结

本文提出将预期验证性能作为计算预算的函数进行报告，以提升自然语言处理（NLP）模型比较中的可复现性和公平性。通过估计在超参数搜索试验中预期的最佳性能，该方法揭示了模型优势依赖于计算预算——例如，某一模型仅在达到特定计算阈值后才优于另一模型——为仅依赖测试集得分的比较提供了一种更稳健的替代方案。

ABSTRACT

Research in natural language processing proceeds, in part, by demonstrating that new models achieve superior performance (e.g., accuracy) on held-out test data, compared to previous results. In this paper, we demonstrate that test-set performance scores alone are insufficient for drawing accurate conclusions about which model performs best. We argue for reporting additional details, especially performance on validation data obtained during model development. We present a novel technique for doing so: expected validation performance of the best-found model as a function of computation budget (i.e., the number of hyperparameter search trials or the overall training time). Using our approach, we find multiple recent model comparisons where authors would have reached a different conclusion if they had used more (or less) computation. Our approach also allows us to estimate the amount of computation required to obtain a given accuracy; applying it to several recently published results yields massive variation across papers, from hours to weeks. We conclude with a set of best practices for reporting experimental results which allow for robust future comparisons, and provide code to allow researchers to use our technique.

研究动机与目标

解决因过度依赖单个测试集得分而导致的NLP模型比较中可复现性和公平性不足的问题。
指出模型性能排名可能随计算预算的变化而改变，从而影响可靠结论的得出。
提出一种方法，以计算量（例如，超参数试验次数）为函数，估计预期验证性能。
为研究人员提供一个框架，用于报告反映模型对调优努力和随机性真实敏感度的结果。
通过鼓励报告验证性能曲线和预算估计，提升透明度，改善未来比较的可比性。

提出的方法

利用开发过程中收集的实证验证分数，估计在n次超参数搜索试验后找到的最佳模型的预期性能。
将预期最佳性能建模为随计算预算（n）增加而变化的曲线，并附带置信区间以显示不确定性。
使用来自n ≥ 1次试验的验证分数经验分布来计算期望值，避免额外计算需求。
证明该方法在计算最佳性能的均值和方差时，误差低于基于自展法的替代方案。
将该方法应用于重新分析已发表结果，以估计实际使用的计算预算，揭示了报告值与实际努力之间的差异。
提供开源代码（allentune），以支持其在标准报告工作流中的采用与集成。

实验结果

研究问题

RQ1当考虑计算预算而非仅最终测试准确率时，模型性能排名如何变化？
RQ2当前的报告实践在多大程度上掩盖了实现报告结果所需的真实计算努力？
RQ3预期验证性能曲线能否为模型比较提供比单点测试集得分更可靠的依据？
RQ4在已发表的NLP论文中，实现报告性能的实际计算预算存在多大程度的差异？
RQ5低估或错误报告超参数搜索预算对可复现性和科学公平性有何影响？

主要发现

模型优势高度依赖于计算预算：例如，在5分类SST任务中，当仅进行10次超参数试验时，逻辑回归模型优于卷积神经网络（CNN），但当试验次数超过16次后，CNN则表现更优。
作者估计，某项已发表结果实际耗费了约18个GPU天的计算时间——远超报告值——凸显了透明度方面的显著差距。
在对50篇随机选取的EMNLP 2018年论文的调查中，没有一篇完整报告了所有推荐的实验细节，凸显了报告缺陷的普遍性。
所提出的方法在计算预期最佳性能时，误差低于基于自展法的估计，提供了更准确且高效的替代方案。
验证性能曲线可用来估计达到特定准确率（如CNN的0.395）所需的计算预算，该值估计为16次试验。
仅报告测试分数的排行榜掩盖了真实的调优努力，作者建议增加验证性能报告，以提升透明度和可比性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。