[论文解读] Accounting for Variance in Machine Learning Benchmarks
本文将 ML 基准中的方差来源形式化(数据采样、初始化、增强和超参数优化),显示它们对比较结论的显著影响,并提出在检测改进时更可靠的策略(随机化与重采样),包括在考虑更多变异时的计算成本降低 51x 的反直觉结果。
Strong empirical evidence that one machine-learning algorithm A outperforms another one B ideally calls for multiple trials optimizing the learning pipeline over sources of variation such as data sampling, data augmentation, parameter initialization, and hyperparameters choices. This is prohibitively expensive, and corners are cut to reach conclusions. We model the whole benchmarking process, revealing that variance due to data sampling, parameter initialization and hyperparameter choice impact markedly the results. We analyze the predominant comparison methods used today in the light of this variance. We show a counter-intuitive result that adding more sources of variation to an imperfect estimator approaches better the ideal estimator at a 51 times reduction in compute cost. Building on these results, we study the error rate of detecting improvements, on five different deep-learning tasks/architectures. This study leads us to propose recommendations for performance comparisons.
研究动机与目标
- 量化在 ML 流水线中各种随机性来源对基准性能的影响。
- 对包含超参数优化的完整基准过程建模,以理解其对性能估计的影响。
- 提出在有限计算预算下提高基准比较可靠性的实际建议。
- 评估在基准方差下如何检测算法之间的真实改进。
提出的方法
- 扩展 Hothorn 等人 (2005) 的框架,以在 ML 流水线中模型化来自数据、初始化、增强和超参数优化的方差。
- 将完整的学习流水线表示为一个带有随机变异 xiH 和 xiO 的随机过程,这些变异影响 Opt(Stv, lambda)。
- 使用自举抽样来量化数据采样方差,并将其与分类准确度的二项式模型进行比较。
- 在受控的种子和预算下,评估多种超参数优化方法(随机搜索、网格搜索、贝叶斯优化)下的方差。
- 分析在纳入全方差与部分方差时,平均性能 mu 的估计量如何变化,并推导对基准设计的含义。
实验结果
研究问题
- RQ1除了数据采样之外,ML 基准中主要的非受控方差来源有哪些?
- RQ2相较于初始化或数据增强等其他来源,超参数优化如何对基准性能的方差产生贡献?
- RQ3在考虑多种变异来源时,检测算法 A 与 B 之间改进的可靠性如何?
- RQ4在有限计算预算下,哪些实际建议最能提高基准结论的精确性和公平性?
主要发现
- 数据采样方差、超参数优化和增强选择显著影响基准结果。
- 自举数据揭示它是主导的方差来源,初始化和 SGD 访问顺序贡献较少但不可忽视。
- 超参数优化方差相当可观,在研究案例中可与初始化方差相当。
- 纳入更多变异来源可以降低性能估计量的标准误,提高对微小改进的灵敏度。
- 已发表改进中的方差与通常报道的增益量级相同,强调在基准测试中需要考量方差的必要性。
- 在考虑额外的变异来源时,报告的计算成本降低了 51×,接近理想估计量。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。