Skip to main content
QUICK REVIEW

[論文レビュー] Efficient Hyperparameter Optimization of Deep Learning Algorithms Using Deterministic RBF Surrogates

Ilija Ilievski, Taimoor Akhtar|arXiv (Cornell University)|Jul 28, 2016
Machine Learning and Data Classification被引用数 73
ひとこと要約

本稿では、深層学習のハイパーパrameter空間を効率的に探索するための決定的ハイパーパrameter最適化手法HORDを提案する。径数基底関数(RBF)補間モデルを用い、動的座標探索と組み合わせることで、ガウス過程を用いたベイズ最適化手法(例:GP-EI)と比較して、関数評価回数を最大6倍まで削減する。特に高次元設定において顕著な効果を示す。

ABSTRACT

Automatically searching for optimal hyperparameter configurations is of crucial importance for applying deep learning algorithms in practice. Recently, Bayesian optimization has been proposed for optimizing hyperparameters of various machine learning algorithms. Those methods adopt probabilistic surrogate models like Gaussian processes to approximate and minimize the validation error function of hyperparameter values. However, probabilistic surrogates require accurate estimates of sufficient statistics (e.g., covariance) of the error distribution and thus need many function evaluations with a sizeable number of hyperparameters. This makes them inefficient for optimizing hyperparameters of deep learning algorithms, which are highly expensive to evaluate. In this work, we propose a new deterministic and efficient hyperparameter optimization method that employs radial basis functions as error surrogates. The proposed mixed integer algorithm, called HORD, searches the surrogate for the most promising hyperparameter values through dynamic coordinate search and requires many fewer function evaluations. HORD does well in low dimensions but it is exceptionally better in higher dimensions. Extensive evaluations on MNIST and CIFAR-10 for four deep neural networks demonstrate HORD significantly outperforms the well-established Bayesian optimization methods such as GP, SMAC, and TPE. For instance, on average, HORD is more than 6 times faster than GP-EI in obtaining the best configuration of 19 hyperparameters.

研究の動機と目的

  • 深層学習のハイパーパrameter最適化において、ガウス過程のような確率的補間手法が高次元で非効率であるという問題に対処すること。
  • 近似的な最適なハイパーパramータ設定を求めるために必要な高価な関数評価回数を削減すること。
  • 連続的および離散的ハイパーパramータを効果的に扱える、決定的で混合整数最適化可能なアルゴリズムを開発すること。
  • ベイズ最適化手法が計算コストの増大により苦戦する高次元のハイパーパramータ空間においても、スケーラビリティと性能を向上させること。
  • RBFに基づく補間モデルと動的座標探索を組み合わせた手法が、最先端のベイズ最適化および木構造ベースの最適化手法を上回ることを実証すること。

提案手法

  • HORDは、ガウス過程が要請する共分散推定を回避するため、ハイパーパラメータの関数としてバリデーション誤差をモデル化する決定的RBF補間モデルを採用する。
  • アルゴリズムは、有望な探索領域に焦点を当てて反復的に候補ハイパーパラメータ点を更新する動的座標探索を用いる。
  • 候補点は、現在の最良解の周囲に正規分布による摂動を加えて生成され、各ステップで一部の次元のみが変更されるため、効率が向上する。
  • 次の評価点の選定は、補間予測値と以前に評価済みの点からの距離の重み付き組み合わせに基づき、現在の最良解の周辺での探索を促進する。
  • HORDは連続的および整数値のハイパーパラメータをサポートしており、深層ニューラルネットワークの構成における混合整数最適化を可能にする。
  • HORD-ISPという変種は、初期推定値を組み込むことで、後続の反復で収束をさらに加速する。

実験結果

リサーチクエスチョン

  • RQ1決定的RBF補間モデルは、深層学習のハイパーパラメータ最適化において、ガウス過程のような確率的補間モデルを上回ることができるか?
  • RQ2標的を絞った摂動を伴う動的座標探索は、高次元のハイパーパラメータ空間において収束速度をどのように向上させるか?
  • RQ3提案手法は、最先端のベイズ最適化および木構造ベースの最適化アルゴリズムと比較して、高価な関数評価回数をどの程度削減できるか?
  • RQ4既存の手法と比較して、ハイパーパラメータの次元数が増加するに従い、HORDの性能はどのようにスケーリングするか?
  • RQ5RBF補間モデルと知的な候補点生成戦略の組み合わせは、最終的なバリデーション誤差を維持または向上させながら、収束速度を速めることができるか?

主な発見

  • HORDは、MNISTおよびCIFAR-10ベンチマークで19個のハイパーパラメータの最良設定を探索する際、GP-EIと比較して6倍の高速化を達成した。
  • 全テストされた問題次元において平均して、HORDは他の手法と比較して3.7〜6倍速く、特に高次元設定で一貫した優位性を示した。
  • HORDは、収束速度および最終的なバリデーション誤差の両面で、GP-EI、GP-PES、SMAC、TPEを上回ったが、特に高次元のハイパーパラメータ空間において顕著であった。
  • ハイパーパラメータ数が10を超過する場合、解の品質および計算効率の面で統計的に有意な改善を示した。
  • 初期推定値を用いるHORD-ISPは、収束速度をさらに向上させ、インフォームドな初期化が性能向上に寄与することを示した。
  • RBF補間モデルの使用により、次元数の増加に伴いスケーリングが著しく悪化するガウス過程ベースの手法と比較して、計算コストの負担が軽減された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。