[論文レビュー] CMA-ES for Hyperparameter Optimization of Deep Neural Networks
本論文は CMA-ES(微分なし最適化手法)を用いて深層ニューラルネットの連続ハイパーパラメータを探索し、MNIST 上で 30 GPU を用いたベイズ最適化手法と並列性能を比較します。非常に低い検証エラーを達成し、並列設定における CMA-ES の強さを示します。
Hyperparameters of deep neural networks are often optimized by grid search, random search or Bayesian optimization. As an alternative, we propose to use the Covariance Matrix Adaptation Evolution Strategy (CMA-ES), which is known for its state-of-the-art performance in derivative-free optimization. CMA-ES has some useful invariance properties and is friendly to parallel evaluations of solutions. We provide a toy example comparing CMA-ES and state-of-the-art Bayesian optimization algorithms for tuning the hyperparameters of a convolutional neural network for the MNIST dataset on 30 GPUs in parallel.
研究の動機と目的
- グリッド探索/ランダム探索およびベイズ法を超えるDNNのハイパーパラメータ最適化の動機付け。
- 連続ハイパーパラメータに対する並列化可能で微分なしの最適化手法としてCMA-ESを評価する。
- 逐次および並列設定の両方で、最先端のベイズ最適化手法とCMA-ESを比較する。
- 異なるトレーニング時間予算とバッチ戦略を用いたMNISTのCNNで実践的な性能を評価する。
提案手法
- CMA-ESを、多変量正規分布からのlambda個の候補解を反復的にサンプリングする手法として説明する。
- 変数が[0,1]にあるため、初期サンプリング分布を N(0.5, 0.2^2) に設定する。
- 候補解を、AdaDelta または Adam で訓練したDNNを評価し、バッチ戦略を選択する;目的関数は、時間枠内のエポック間での最小検証誤差。
- lambda = 30 を使用して30 GPUを活用し並列評価を実行する;5分と30分のトレーニング予算を比較する。
- 本研究ではノイズ削減や代理モデルを使用しない。
- CMA-ESを、GPベースのベイズ最適化(EIとPESを用いるSpearmint)および木構造ベースの手法(TPE、SMAC)と、並列および逐次設定で比較する。
実験結果
リサーチクエスチョン
- RQ1連続的なDNNハイパーパラメータに対して、CMA-ESはベイズ最適化と競争できるか?
- RQ2並列ハイパーパラメータ評価におけるCMA-ESの性能は、逐次最適化とどう比較されるか?
- RQ3最終的な検証性能の観点から、CMA-ESはSpearmint(EI/PES)、SMAC、TPEとどう比較されるか?
- RQ4トレーニング予算とバッチ選択戦略がCMA-ESの性能に与える影響は何か?
主な発見
- CMA-ESは、8つのハイパーパラメータ設定すべてにおいて、時間とともに最高の検証誤差を着実に改善する。
- 最良ケースでは、CMA-ESは30分の学習で検証誤差を0.3%未満に達成する。
- 5分予算では、CMA-ESは約0.42%の検証誤差に達する。
- 30GPUでの並列評価では、多くの解が検証誤差0.4%以下となり、内部コストはほぼゼロである。
- GPベースのベイズ最適化(Spearmint with EI/PES)は、GPの立方コストのため遅く、評価回数が増えると特に遅くなる。
- TPE with Gaussian priors は良好に機能し、しばしばCMA-ESと同等の性能を示す一方で、SMACとEI/PESはこのノイズが多く高次元の設定では劣後する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。