Skip to main content
QUICK REVIEW

[论文解读] On the Importance of Strong Baselines in Bayesian Deep Learning

Jishnu Mukhoti, Pontus Stenetorp|arXiv (Cornell University)|Nov 23, 2018
Gaussian Processes and Bayesian Inference参考文献 9被引用 27
一句话总结

本文表明,在贝叶斯深度学习中广泛使用的基准方法——蒙特卡洛丢弃(Monte Carlo dropout),在相同训练条件下评估时,其性能优于或等同于当前最先进(SOTA)的方法。作者揭示了先前基准测试中的一个关键缺陷——将训练至收敛的模型与仅训练40个周期的基线模型进行比较——表明更强的基线会使得近期若干研究中关于性能优越性的宣称失效。

ABSTRACT

Like all sub-fields of machine learning Bayesian Deep Learning is driven by empirical validation of its theoretical proposals. Given the many aspects of an experiment it is always possible that minor or even major experimental flaws can slip by both authors and reviewers. One of the most popular experiments used to evaluate approximate inference techniques is the regression experiment on UCI datasets. However, in this experiment, models which have been trained to convergence have often been compared with baselines trained only for a fixed number of iterations. We find that a well-established baseline, Monte Carlo dropout, when evaluated under the same experimental settings shows significant improvements. In fact, the baseline outperforms or performs competitively with methods that claimed to be superior to the very same baseline method when they were introduced. Hence, by exposing this flaw in experimental procedure, we highlight the importance of using identical experimental setups to evaluate, compare, and benchmark methods in Bayesian Deep Learning.

研究动机与目标

  • 研究不一致实验设置对贝叶斯深度学习方法评估的影响。
  • 识别并纠正基准测试中的一个常见缺陷:将训练至收敛的模型与仅训练40个周期的基线模型进行比较。
  • 证明在相同条件下,经过充分调优的蒙特卡洛丢弃(标准基线)在性能上可与或优于宣称的SOTA方法。
  • 倡导在贝叶斯深度学习研究中采用严格且一致的实验设置,以确保比较的有效性,并支持可靠的性能提升声明。

提出的方法

  • 使用与近期SOTA方法相同的实验协议(包括训练至收敛),重新评估了UCI数据集上的回归实验。
  • 在与被比较方法相同的超参数和训练时长下,训练蒙特卡洛丢弃模型。
  • 采用标准评估指标:测试集上的均方根误差(RMSE)和预测对数似然。
  • 在收敛设置下,重新实现并重新训练基线模型(如VMG、HS-BNN、PBP-MV、SGHMC),以实现公平比较。
  • 在所有数据集上对蒙特卡洛丢弃进行超参数调优,以确保其达到最优性能。
  • 将结果与原始论文中公布的数值直接对比,以隔离训练时长和实验设置的影响。

实验结果

研究问题

  • RQ1与固定周期训练相比,将蒙特卡洛丢弃训练至收敛是否显著提升其性能?
  • RQ2当在相同实验条件下评估时,贝叶斯深度学习方法的性能排名是否发生变化?
  • RQ3先前关于SOTA性能的宣称在多大程度上依赖于与训练不足的基线之间的不公平比较?
  • RQ4当两者在相同条件下训练时,标准基线(如MC dropout)是否能优于更复杂的模型?
  • RQ5不一致的训练协议对贝叶斯深度学习研究中实证结论有效性的负面影响如何?

主要发现

  • 当训练至收敛时,蒙特卡洛丢弃在多个UCI回归数据集上实现了SOTA或接近SOTA的性能。
  • 在波士顿房价、混凝土强度和红葡萄酒品质数据集上,蒙特卡洛丢弃的对数似然得分最佳,优于VMG、HS-BNN和SGHMC。
  • 在RMSE指标上,蒙特卡洛丢弃在混凝土强度、海军推进装置、红葡萄酒品质和游艇水动力学数据集上优于VMG、HS-BNN和SGHMC。
  • 在能效和Kin8nm数据集上,蒙特卡洛丢弃取得了最佳或第二好的表现,经超参数调优的版本实现了最低的RMSE。
  • 在海军推进装置数据集上,蒙特卡洛丢弃表现出近乎完美的性能(RMSE ≈ 0.00),优于所有其他方法。
  • 结果表明,先前对VMG、HS-BNN和SGHMC等方法优越性的宣称因与训练不足的基线进行不公平比较而无效。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。