Skip to main content
QUICK REVIEW

[論文レビュー] CMA-ES for Hyperparameter Optimization of Deep Neural Networks

Ilya Loshchilov, Frank Hutter|arXiv (Cornell University)|Apr 25, 2016
Machine Learning and Data Classification参考文献 18被引用数 238
ひとこと要約

本論文は CMA-ES(微分なし最適化手法)を用いて深層ニューラルネットの連続ハイパーパラメータを探索し、MNIST 上で 30 GPU を用いたベイズ最適化手法と並列性能を比較します。非常に低い検証エラーを達成し、並列設定における CMA-ES の強さを示します。

ABSTRACT

Hyperparameters of deep neural networks are often optimized by grid search, random search or Bayesian optimization. As an alternative, we propose to use the Covariance Matrix Adaptation Evolution Strategy (CMA-ES), which is known for its state-of-the-art performance in derivative-free optimization. CMA-ES has some useful invariance properties and is friendly to parallel evaluations of solutions. We provide a toy example comparing CMA-ES and state-of-the-art Bayesian optimization algorithms for tuning the hyperparameters of a convolutional neural network for the MNIST dataset on 30 GPUs in parallel.

研究の動機と目的

  • グリッド探索/ランダム探索およびベイズ法を超えるDNNのハイパーパラメータ最適化の動機付け。
  • 連続ハイパーパラメータに対する並列化可能で微分なしの最適化手法としてCMA-ESを評価する。
  • 逐次および並列設定の両方で、最先端のベイズ最適化手法とCMA-ESを比較する。
  • 異なるトレーニング時間予算とバッチ戦略を用いたMNISTのCNNで実践的な性能を評価する。

提案手法

  • CMA-ESを、多変量正規分布からのlambda個の候補解を反復的にサンプリングする手法として説明する。
  • 変数が[0,1]にあるため、初期サンプリング分布を N(0.5, 0.2^2) に設定する。
  • 候補解を、AdaDelta または Adam で訓練したDNNを評価し、バッチ戦略を選択する;目的関数は、時間枠内のエポック間での最小検証誤差。
  • lambda = 30 を使用して30 GPUを活用し並列評価を実行する;5分と30分のトレーニング予算を比較する。
  • 本研究ではノイズ削減や代理モデルを使用しない。
  • CMA-ESを、GPベースのベイズ最適化(EIとPESを用いるSpearmint)および木構造ベースの手法(TPE、SMAC)と、並列および逐次設定で比較する。

実験結果

リサーチクエスチョン

  • RQ1連続的なDNNハイパーパラメータに対して、CMA-ESはベイズ最適化と競争できるか?
  • RQ2並列ハイパーパラメータ評価におけるCMA-ESの性能は、逐次最適化とどう比較されるか?
  • RQ3最終的な検証性能の観点から、CMA-ESはSpearmint(EI/PES)、SMAC、TPEとどう比較されるか?
  • RQ4トレーニング予算とバッチ選択戦略がCMA-ESの性能に与える影響は何か?

主な発見

  • CMA-ESは、8つのハイパーパラメータ設定すべてにおいて、時間とともに最高の検証誤差を着実に改善する。
  • 最良ケースでは、CMA-ESは30分の学習で検証誤差を0.3%未満に達成する。
  • 5分予算では、CMA-ESは約0.42%の検証誤差に達する。
  • 30GPUでの並列評価では、多くの解が検証誤差0.4%以下となり、内部コストはほぼゼロである。
  • GPベースのベイズ最適化(Spearmint with EI/PES)は、GPの立方コストのため遅く、評価回数が増えると特に遅くなる。
  • TPE with Gaussian priors は良好に機能し、しばしばCMA-ESと同等の性能を示す一方で、SMACとEI/PESはこのノイズが多く高次元の設定では劣後する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。