[论文解读] Efficient Hyperparameter Optimization and Infinitely Many Armed Bandits
本文提出 Hyperband,一种新颖的超参数优化方法,将问题建模为非随机的无限多臂老虎机问题,根据性能自适应地在不同配置间分配资源。该方法通过高效地将训练资源分配给有前景的配置,在性能上超越了训练时间加倍的贝叶斯优化和随机搜索,实现了显著的速度提升。
Performance of machine learning algorithms depends critically on identifying a good set of hyperparameters. While current methods offer efficiencies by adaptively choosing new configurations to train, an alternative strategy is to adaptively allocate resources across the selected configurations. We formulate hyperparameter optimization as a pure-exploration non-stochastic infinitely many armed bandit problem where allocation of additional resources to an arm corresponds to training a configuration on larger subsets of the data. We introduce Hyperband for this framework and analyze its theoretical properties, providing several desirable guarantees. We compare Hyperband with state-of-the-art Bayesian optimization methods and a random search baseline on a comprehensive benchmark including 117 datasets. Our results on this benchmark demonstrate that while Bayesian optimization methods do not outperform random search trained for twice as long, Hyperband in favorable settings offers valuable speedups.
研究动机与目标
- 为解决机器学习中高效超参数优化的挑战,因为性能在很大程度上取决于超参数的选择。
- 将超参数调优建模为纯粹探索、非随机、无限多臂老虎机问题,其中每个“臂”代表一个超参数配置,资源分配对应于在更大数据子集上进行训练。
- 设计一种方法,自适应地将计算资源分配给最有希望的配置,从而在效率上优于随机或固定资源的搜索策略。
- 为所提出方法在老虎机框架下的性能提供理论保证。
- 在包含 117 个数据集的大规模基准上,对 Hyperband 与最先进的贝叶斯优化和随机搜索方法进行实证评估。
提出的方法
- 该方法将超参数优化建模为非随机的无限多臂老虎机问题,其中每个臂对应一个唯一的超参数配置。
- 资源分配被形式化为在逐步增加的训练数据子集上训练每个配置,并在每个分配步骤后测量其性能。
- Hyperband 动态地将更多资源分配给在中间训练阶段表现出早期潜力的配置。
- 该算法采用连续减半策略,尽早淘汰表现较差的配置,将计算资源集中于最有希望的配置上。
- 理论分析提供了关于将被评估的配置数量的期望值以及识别出近似最优配置的概率的保证。
- 该方法设计为与底层机器学习算法无关,因此可广泛适用于不同模型和数据集。
实验结果
研究问题
- RQ1在超参数优化中,对超参数配置进行自适应资源分配是否能优于固定资源或随机搜索策略?
- RQ2所提出的 Hyperband 方法在超参数调优中是否比最先进的贝叶斯优化更具样本效率?
- RQ3当随机搜索被允许使用两倍训练时间时,Hyperband 与之相比表现如何?
- RQ4针对超参数优化的非随机、无限多臂老虎机形式化,可以提供哪些理论保证?
- RQ5在何种设置下,Hyperband 能够为现有方法带来有意义的速度提升?
主要发现
- 在贝叶斯优化方法未能超越训练时间加倍的随机搜索的设置中,Hyperband 显著优于这些方法。
- 在 117 个数据集的基准测试中,Hyperband 以远低于贝叶斯优化的计算成本实现了更优的性能。
- 该方法在有利配置下表现出显著的速度提升,尤其是在能有效提前终止表现差的模型时。
- 当随机搜索被允许训练两倍时间时,贝叶斯优化方法仍无法超越其性能,凸显了当前贝叶斯方法在此情境下的低效性。
- Hyperband 的理论框架确保了以高概率识别出近似最优配置的强保证。
- 实证结果证实,自适应资源分配相比均匀或随机分配策略,能带来更高效的超参数搜索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。