Skip to main content
QUICK REVIEW

[论文解读] Freeze-Thaw Bayesian Optimization

Kevin Swersky, Jasper Snoek|arXiv (Cornell University)|Jun 16, 2014
Machine Learning and Data Classification参考文献 18被引用 117
一句话总结

本文提出了一种名为冻结-解冻贝叶斯优化(Freeze-Thaw Bayesian Optimization)的方法,该方法利用机器学习模型的部分训练信息,动态决定何时暂停、恢复或重新启动超参数搜索。通过使用一种新颖的指数衰减核函数对训练曲线进行建模,并采用信息论准则,该方法显著减少了训练时间,同时在超参数优化方面优于标准贝叶斯优化方法。

ABSTRACT

In this paper we develop a dynamic form of Bayesian optimization for machine learning models with the goal of rapidly finding good hyperparameter settings. Our method uses the partial information gained during the training of a machine learning model in order to decide whether to pause training and start a new model, or resume the training of a previously-considered model. We specifically tailor our method to machine learning problems by developing a novel positive-definite covariance kernel to capture a variety of training curves. Furthermore, we develop a Gaussian process prior that scales gracefully with additional temporal observations. Finally, we provide an information-theoretic framework to automate the decision process. Experiments on several common machine learning models show that our approach is extremely effective in practice.

研究动机与目标

  • 为解决标准贝叶斯优化效率低下的问题,后者需在评估超参数前完成完整模型训练。
  • 基于部分训练进度实现模型的早期停止或恢复,以模拟专家直觉。
  • 开发一种可扩展的高斯过程先验,能够从不完整的训练轨迹中预测最终模型性能。
  • 利用信息论框架自动化决策过程,实现探索与利用之间的最优平衡。

提出的方法

  • 提出一种基于无限个指数衰减基函数混合的新型正定核函数,用于建模训练曲线。
  • 在时间上使用高斯过程先验,以预测部分训练模型的最终验证损失。
  • 采用信息论获取函数,决定是否冻结(暂停)、解冻(恢复)或启动新模型。
  • 对超参数空间应用基于Matérn-5/2核的变形技术,对时间动态则采用自定义指数衰减核函数。
  • 对核函数超参数实施分层先验,包括对数正态分布和霍希(horseshoe)先验,以提升鲁棒性与可扩展性。
  • 结合多输出高斯过程回归与预测分布,以估计未来性能及不确定性。

实验结果

研究问题

  • RQ1是否可以利用部分训练信息,在超参数优化过程中智能地决定何时停止或恢复模型训练?
  • RQ2高斯过程模型如何能有效从不完整的训练数据中预测机器学习模型的最终性能?
  • RQ3何种核结构最能捕捉深度学习及其他机器学习模型中训练曲线的典型形态?
  • RQ4如何利用信息论准则在动态超参数搜索中平衡探索与利用?
  • RQ5所提出的冻结-解冻策略是否能在减少总训练时间的同时,提升对最优超参数的收敛性能?

主要发现

  • 所提方法在显著减少总训练时间的同时,实现了优于标准贝叶斯优化的超参数优化性能。
  • 新颖的指数衰减核函数能有效建模多种机器学习模型的训练曲线,准确捕捉典型的指数衰减模式。
  • 信息论决策准则可实现对无前景模型的早期识别,从而减少计算浪费。
  • 该方法在增加时间观测值时仍能保持良好的可扩展性,在主动学习过程中维持计算效率。
  • 实验表明,冻结-解冻贝叶斯优化在多个常见模型上比基线方法更快找到优良的超参数设置。
  • 分层先验与变形技术的结合提升了在不同超参数和数据场景下的鲁棒性与泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。