[论文解读] CMA-ES for Hyperparameter Optimization of Deep Neural Networks
该论文展示了使用 CMA-ES,一种无导数优化器,在深度神经网络中搜索连续超参数,并将其并行性能与在 MNIST 上使用 30 个 GPU 的贝叶斯优化方法进行了比较。它实现了非常低的验证误差,并展示了 CMA-ES 在并行设置中的优势。
Hyperparameters of deep neural networks are often optimized by grid search, random search or Bayesian optimization. As an alternative, we propose to use the Covariance Matrix Adaptation Evolution Strategy (CMA-ES), which is known for its state-of-the-art performance in derivative-free optimization. CMA-ES has some useful invariance properties and is friendly to parallel evaluations of solutions. We provide a toy example comparing CMA-ES and state-of-the-art Bayesian optimization algorithms for tuning the hyperparameters of a convolutional neural network for the MNIST dataset on 30 GPUs in parallel.
研究动机与目标
- 推动 DNN 超参数优化,超越网格搜索/随机搜索和贝叶斯方法。
- 评估 CMA-ES 作为对连续超参数可并行化的无导数优化方法。
- 在序列与并行设置下,将 CMA-ES 与最先进的贝叶斯优化方法进行比较。
- 在 MNIST CNN 上评估不同训练时间预算和批处理策略下的实际性能。
提出的方法
- 将 CMA-ES 描述为从多元正态分布迭代抽样 lambda 个候选解。
- 由于变量在 [0,1],将初始采样分布设为 N(0.5, 0.2^2)。
- 通过使用 AdaDelta 或 Adam 训练 DNN 来评估候选解,并选择批处理策略;目标是在时间预算内的若干 epoch 中的最小验证误差。
- 使用 lambda = 30 以利用 30 个 GPU 进行并行评估;比较 5 分钟和 30 分钟的训练预算。
- 本研究不使用降噪或代理模型。
- 在并行与序列设置下,将 CMA-ES 与基于 GP 的贝叶斯优化(Spearmint 的 EI 和 PES)以及基于树的方法(TPE、SMAC)进行比较。
实验结果
研究问题
- RQ1CMA-ES 能否在连续的 DNN 超参数上与贝叶斯优化竞争?
- RQ2CMA-ES 在并行超参数评估与序列优化相比的表现如何?
- RQ3在最终验证性能方面,CMA-ES 与 Spearmint(EI/PES)、SMAC 和 TPE 的比较如何?
- RQ4训练预算和批处理选择策略对 CMA-ES 性能有何影响?
主要发现
- CMA-ES 在所有八个超参数设置中,随着时间推移稳定地改进最佳验证误差。
- 在最佳情况下,CMA-ES 在 30 分钟训练下实现验证误差低于 0.3%。
- 在 5 分钟预算下,CMA-ES 的验证误差约为 0.42%。
- 在 30 GPU 的并行评估中,CMA-ES 产生的大多数解的验证误差低于 0.4%,而内部成本几乎为零。
- 基于 GP 的贝叶斯优化(Spearmint 与 EI/PES)由于 GP 成本的三次方关系而更慢,尤其是在评估次数增加时。
- 带高斯先验的 TPE 表现良好且常常与 CMA-ES 匹配,而 SMAC 和 EI/PES 在这种嘈杂的高维环境中落后。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。