QUICK REVIEW

[论文解读] CMA-ES for Hyperparameter Optimization of Deep Neural Networks

Ilya Loshchilov, Frank Hutter|arXiv (Cornell University)|Apr 25, 2016

Machine Learning and Data Classification参考文献 18被引用 238

一句话总结

该论文展示了使用 CMA-ES，一种无导数优化器，在深度神经网络中搜索连续超参数，并将其并行性能与在 MNIST 上使用 30 个 GPU 的贝叶斯优化方法进行了比较。它实现了非常低的验证误差，并展示了 CMA-ES 在并行设置中的优势。

ABSTRACT

Hyperparameters of deep neural networks are often optimized by grid search, random search or Bayesian optimization. As an alternative, we propose to use the Covariance Matrix Adaptation Evolution Strategy (CMA-ES), which is known for its state-of-the-art performance in derivative-free optimization. CMA-ES has some useful invariance properties and is friendly to parallel evaluations of solutions. We provide a toy example comparing CMA-ES and state-of-the-art Bayesian optimization algorithms for tuning the hyperparameters of a convolutional neural network for the MNIST dataset on 30 GPUs in parallel.

研究动机与目标

推动 DNN 超参数优化，超越网格搜索/随机搜索和贝叶斯方法。
评估 CMA-ES 作为对连续超参数可并行化的无导数优化方法。
在序列与并行设置下，将 CMA-ES 与最先进的贝叶斯优化方法进行比较。
在 MNIST CNN 上评估不同训练时间预算和批处理策略下的实际性能。

提出的方法

将 CMA-ES 描述为从多元正态分布迭代抽样 lambda 个候选解。
由于变量在 [0,1]，将初始采样分布设为 N(0.5, 0.2^2)。
通过使用 AdaDelta 或 Adam 训练 DNN 来评估候选解，并选择批处理策略；目标是在时间预算内的若干 epoch 中的最小验证误差。
使用 lambda = 30 以利用 30 个 GPU 进行并行评估；比较 5 分钟和 30 分钟的训练预算。
本研究不使用降噪或代理模型。
在并行与序列设置下，将 CMA-ES 与基于 GP 的贝叶斯优化（Spearmint 的 EI 和 PES）以及基于树的方法（TPE、SMAC）进行比较。

实验结果

研究问题

RQ1CMA-ES 能否在连续的 DNN 超参数上与贝叶斯优化竞争？
RQ2CMA-ES 在并行超参数评估与序列优化相比的表现如何？
RQ3在最终验证性能方面，CMA-ES 与 Spearmint（EI/PES）、SMAC 和 TPE 的比较如何？
RQ4训练预算和批处理选择策略对 CMA-ES 性能有何影响？

主要发现

CMA-ES 在所有八个超参数设置中，随着时间推移稳定地改进最佳验证误差。
在最佳情况下，CMA-ES 在 30 分钟训练下实现验证误差低于 0.3%。
在 5 分钟预算下，CMA-ES 的验证误差约为 0.42%。
在 30 GPU 的并行评估中，CMA-ES 产生的大多数解的验证误差低于 0.4%，而内部成本几乎为零。
基于 GP 的贝叶斯优化（Spearmint 与 EI/PES）由于 GP 成本的三次方关系而更慢，尤其是在评估次数增加时。
带高斯先验的 TPE 表现良好且常常与 CMA-ES 匹配，而 SMAC 和 EI/PES 在这种嘈杂的高维环境中落后。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。