[论文解读] BOHB: Robust and Efficient Hyperparameter Optimization at Scale
BOHB 将贝叶斯优化与 Hyperband 相结合,实现快速、鲁棒的超参数优化,能够扩展到高维和并行资源,在各种任务上优于 BO 和 Hyperband。
Modern deep learning methods are very sensitive to many hyperparameters, and, due to the long training times of state-of-the-art models, vanilla Bayesian hyperparameter optimization is typically computationally infeasible. On the other hand, bandit-based configuration evaluation approaches based on random search lack guidance and do not converge to the best configurations as quickly. Here, we propose to combine the benefits of both Bayesian optimization and bandit-based methods, in order to achieve the best of both worlds: strong anytime performance and fast convergence to optimal configurations. We propose a new practical state-of-the-art hyperparameter optimization method, which consistently outperforms both Bayesian optimization and Hyperband on a wide range of problem types, including high-dimensional toy functions, support vector machines, feed-forward neural networks, Bayesian neural networks, deep reinforcement learning, and convolutional neural networks. Our method is robust and versatile, while at the same time being conceptually simple and easy to implement.
研究动机与目标
- 提出实用的超参数优化(HPO),在快速初始结果与强最终性能之间取得平衡。
- 实现对高维混合离散-连续配置空间的可扩展性。
- 在跨问题领域保持鲁棒性的同时有效利用并行资源。
- 提供一种简单、高效、灵活的 HPO 方法,适用于多样化的机器学习任务。
提出的方法
- 将 Hyperband (HB) 与基于 Tree Parzen Estimators (TPE) 的贝叶斯优化组件结合,以引导配置搜索。
- 用基于模型的采样替代 HB 中的随机配置采样,使用单一多维核密度估计(KDE)。
- 使用预算在不同保真度下评估配置,并对一组由 BO 采样的配置应用逐轮淘汰(Successive Halving)。
- 在各预算之间维护结果,以逐步构建更好的模型,将最大的预算用于最终决策。
- 包含一定比例的随机配置以保持探索性和理论上的 HB 保证。
- 通过跨 SH 运行共享观测数据并交错 SH 运行来实现并行,以高效利用大量工作者。
实验结果
研究问题
- RQ1将贝叶斯优化与 Hyperband 相结合是否能够同时获得强的任意时刻性能和强的最终性能?
- RQ2如何将 BO 适配为处理多预算评估和高维空间中的相互作用效应?
- RQ3BOHB 是否能扩展到高维、混合类别/连续的超参数空间并有效利用并行计算?
- RQ4与基线方法相比,BOHB 在多样化的机器学习任务(SVM、神经网络、贝叶斯网络、强化学习、卷积神经网络)上的表现如何?
- RQ5BOHB 在不同问题上的实际超参数设置及鲁棒性特征是什么?
主要发现
- BOHB 在广泛的题型中始终优于贝叶斯优化和 Hyperband。
- BOHB 实现快速初始进展并快速收敛到近全局最优,最终性能优于 HB,早期进展优于 BO。
- BOHB 能扩展到高维空间和异质超参数类型(二进制、分类、整数、连续)。
- 与基线相比,BOHB 在神经网络、贝叶斯神经网络、强化学习和卷积网络方面表现出显著的性能提升。
- BOHB 实现高效并行,在可用工作量接近线性加速,且跨 SH 运行共享观测数据。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。