[论文解读] Hyp-RL : Hyperparameter Optimization by Reinforcement Learning
这篇论文将超参数调优形式化为强化学习问题,并引入 Hyp-RL,一种基于 Q 学习的策略,配备 LSTM,导航超参数空间以最大化未来奖励,在50个数据集元数据集上超越最先进基线。
Hyperparameter tuning is an omnipresent problem in machine learning as it is an integral aspect of obtaining the state-of-the-art performance for any model. Most often, hyperparameters are optimized just by training a model on a grid of possible hyperparameter values and taking the one that performs best on a validation sample (grid search). More recently, methods have been introduced that build a so-called surrogate model that predicts the validation loss for a specific hyperparameter setting, model and dataset and then sequentially select the next hyperparameter to test, based on a heuristic function of the expected value and the uncertainty of the surrogate model called acquisition function (sequential model-based Bayesian optimization, SMBO). In this paper we model the hyperparameter optimization problem as a sequential decision problem, which hyperparameter to test next, and address it with reinforcement learning. This way our model does not have to rely on a heuristic acquisition function like SMBO, but can learn which hyperparameters to test next based on the subsequent reduction in validation loss they will eventually lead to, either because they yield good models themselves or because they allow the hyperparameter selection policy to build a better surrogate model that is able to choose better hyperparameters later on. Experiments on a large battery of 50 data sets demonstrate that our method outperforms the state-of-the-art approaches for hyperparameter learning.
研究动机与目标
- 将超参数调优作为高维模型的可扩展、鲁棒的自动化过程的动机。
- 提出一种强化学习框架,用以替代传统贝叶斯优化中用于超参数的获取函数(acquisition function)。
- 通过跨多个数据集训练并在未见数据集上进行评估来演示迁移学习潜力。
- 给出实证证据,表明 Hyp-RL 相较于基线在大型元数据集上提升最终模型性能。
提出的方法
- 将超参数优化形式化为一个马尔可夫决策过程,状态包括数据集元特征以及已测试配置和奖励的历史。
- 使用基于 Q 学习的策略(Hyp-RL)结合 LSTM 来建模动作-值函数并在超参数表面进行导航。
- 将动作定义为从网格中选择下一个超参数配置;奖励等于所得到模型的验证损失的负值。
- 融入元特征以条件化初始 LSTM 状态 (h0 = W0 * s_static) 以适应数据集。
- 使用经验回放和目标网络进行训练,预算耗尽或出现重复动作时终止剧集。
- 从 50 个随机的 UCI 分类数据集构建元数据集 (nnMeta) 以研究跨数据集转移与评估。
实验结果
研究问题
- RQ1强化学习策略是否能够在高维超参数空间中有效导航以降低验证损失?
- RQ2在超参数优化中对数据集元特征进行条件化是否能实现跨数据集的迁移?
- RQ3在多样化数据集上,Hyp-RL 与贝叶斯优化基线及元学习代理模型相比如何?
- RQ4Hyp-RL 方法的计算特性与可扩展性如何?
主要发现
- Hyp-RL 在跨数据集传递知识的基线表现持续优于那些不进行跨数据集迁移的基线。
- Hyp-RL 与一个元学习代理(F-MLP)相比具有竞争力,同时提供更快的推断,因为它在每个配置后不重新拟合代理。
- 该策略在经历中以奖励增加和更好地在超参数响应表面上导航显示学习进展。
- 对数据集元特征条件化策略能带来更好的初始配置,并在未见数据上快速改进。
- 训练该策略需要大量前期计算(大约 24 GPU 小时用于训练 1000万帧),但在线推断在选择配置时是即时的。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。