Skip to main content
QUICK REVIEW

[论文解读] Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization

Lisha Li, Kevin Jamieson|arXiv (Cornell University)|Mar 21, 2016
Machine Learning and Data Classification被引用 1,061
一句话总结

Hyperband 引入了一种纯探索、基于多臂赌博机的超参数优化方法,能够自适应地将资源(例如迭代、数据、特征)分配给不同配置,并使用多个逐次折半的括号来加速超参数搜索,通常优于贝叶斯优化。

ABSTRACT

Performance of machine learning algorithms depends critically on identifying a good set of hyperparameters. While recent approaches use Bayesian optimization to adaptively select configurations, we focus on speeding up random search through adaptive resource allocation and early-stopping. We formulate hyperparameter optimization as a pure-exploration non-stochastic infinite-armed bandit problem where a predefined resource like iterations, data samples, or features is allocated to randomly sampled configurations. We introduce a novel algorithm, Hyperband, for this framework and analyze its theoretical properties, providing several desirable guarantees. Furthermore, we compare Hyperband with popular Bayesian optimization methods on a suite of hyperparameter optimization problems. We observe that Hyperband can provide over an order-of-magnitude speedup over our competitor set on a variety of deep-learning and kernel-based learning problems.

研究动机与目标

  • 激发对复杂机器学习模型超参数优化的挑战的认识,其中性能取决于对多个参数的调优。
  • 提出一种快速、原理性的方法,在配置之间自适应地分配计算资源。
  • 为纯探索、无限臂赌博机的形式提供理论保证。
  • 在不同任务和资源条件下,实证比较 Hyperband 与贝叶斯优化方法。

提出的方法

  • 将超参数优化表述为一个纯探索、非随机、无限臂的赌博机问题。
  • 引入 Hyperband,它将多个逐次折半的括号结合起来,在探索(大量配置)与开发利用(每个配置更多资源)之间做权衡。
  • 在括号上使用一个以有限预算为外循环,参数 n(配置数)和 r(每个配置的资源),其中每个括号运行逐次折半。
  • 定义两个输入,R(每个配置的最大资源)和 eta(丢弃因子),并推导 s_max 与总预算 B。
  • 提供一个无限时间视角的变体,随时间翻倍预算以应对未知的 R。
  • 证明 Hyperband 能适应未知的收敛速率和验证损失的包络行为,而不依赖强参数假设。
  • 表明 Hyperband 可以与任何超参数采样策略结合,并且对评估中的随机性不敏感。

实验结果

研究问题

  • RQ1如何将超参数优化表述为一个纯探索、无限臂的赌博机问题?
  • RQ2在固定预算下,多括号、逐次折半的方法能否高效地识别出良好的超参数?
  • RQ3在不同资源类型和任务下,Hyperband 的表现相对于贝叶斯优化方法如何?

主要发现

  • Hyperband 在深度学习和基于核的任务上相对于贝叶斯优化方法实现显著加速(在某些情况下超过一个数量级)。
  • 该算法通过使用多个具有不同 n 和 r 权衡的括号,在激进探索与保守评估之间进行权衡。
  • 无限时间视角的变体和纯探索框架提供理论见解,并在未知包络行为下相对于理想的逐次折半实现近似最优的预算使用。
  • 在迭代、数据子采样和特征子采样上的实证结果显示了鲁棒性和广泛的适用性。
  • Hyperband 仅需要 R 和 eta,并且可以与任何超参数采样方法搭配使用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。