[论文解读] Non-stochastic Best Arm Identification and Hyperparameter Optimization
本文提出了一种用于超参数优化的非随机最优臂识别框架,其中每个臂代表一种超参数配置,损失值在训练过程中随时间被观测。通过利用逐次减半算法,该方法通过自适应地将资源分配给有希望的配置,在模型性能与基线相当的情况下,将收敛速度提升了整整一个数量级,实证结果表明在岭回归、核支持向量机和矩阵补全任务中,壁钟时间显著加快。
Motivated by the task of hyperparameter optimization, we introduce the non-stochastic best-arm identification problem. Within the multi-armed bandit literature, the cumulative regret objective enjoys algorithms and analyses for both the non-stochastic and stochastic settings while to the best of our knowledge, the best-arm identification framework has only been considered in the stochastic setting. We introduce the non-stochastic setting under this framework, identify a known algorithm that is well-suited for this setting, and analyze its behavior. Next, by leveraging the iterative nature of standard machine learning algorithms, we cast hyperparameter optimization as an instance of non-stochastic best-arm identification, and empirically evaluate our proposed algorithm on this task. Our empirical results show that, by allocating more resources to promising hyperparameter settings, we typically achieve comparable test accuracies an order of magnitude faster than baseline methods.
研究动机与目标
- 解决非随机多臂赌博机设置下最优臂识别缺乏理论与算法框架的问题,特别是在超参数优化中的应用。
- 克服现有方法将模型训练视为黑箱或依赖于收敛速率强假设的局限性。
- 开发一种通用、鲁棒且高效的算法,用于在迭代机器学习设置中识别最佳超参数配置。
- 通过合理在线分配训练资源,实现对表现不佳的超参数设置的早期终止。
- 在保持相当测试准确率的前提下,证明所提方法在壁钟时间上相对于标准基线的实用性优势。
提出的方法
- 将超参数优化建模为非随机最优臂识别问题,其中每个臂对应一个固定的超参数配置。
- 将中间验证损失序列建模为非随机、非单调且可能非平滑的时间序列。
- 采用逐次减半算法作为核心方法,通过在中间步骤基于性能迭代地将更多资源分配给有希望的臂。
- 使用加倍技巧动态增加每个臂的预算,在每次加倍时重置计数器,以确保可解释性与公平性。
- 将该算法应用于诸如随机梯度下降等迭代机器学习过程,其中无需完全收敛即可评估中间模型状态。
- 实施资源分配策略,优先考虑早期表现出色的臂,从而在保持模型质量的同时减少整体计算时间。
实验结果
研究问题
- RQ1非随机最优臂识别框架能否在迭代机器学习的超参数优化中有效应用?
- RQ2在壁钟时间和收敛速度方面,逐次减半算法与均匀分配和逐次拒绝算法相比表现如何?
- RQ3在不牺牲最终模型准确率的前提下,对表现不佳的超参数配置进行早期终止,能在多大程度上加速优化过程?
- RQ4该算法在具有不同收敛动态和非平滑损失轨迹的不同机器学习任务中表现如何?
- RQ5在臂的拉动与损失观测之间的计算成本差异对算法设计与效率有何影响?
主要发现
- 在核支持向量机任务中,逐次减半算法在壁钟时间上比均匀分配和逐次拒绝算法快一个数量级以上,同时达到了相同的低测试误差。
- 在岭回归任务中,LUCB和lil’UCB在迭代次数上更快达到更低的测试误差,但由于验证损失评估成本更高,在壁钟时间上被逐次减半和逐次拒绝算法超越。
- 在具有非凸目标的矩阵补全任务中,逐次减半和逐次拒绝算法在壁钟时间上比均匀分配快两到八倍,即可达到目标误差率。
- 实证结果证实,基于中间性能的自适应资源分配可带来显著加速,且在不同数据集和模型上均表现出一致的改进。
- 在每个阶段都进行预算重置的加倍技巧显著提升了可解释性与性能,尤其在收敛行为方差较高的设置中表现更优。
- 即使损失序列是非单调且非平滑的,该方法仍表现出鲁棒性,证明其对真实世界训练动态具有强适应能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。