QUICK REVIEW

[論文レビュー] Fast Bayesian Optimization of Machine Learning Hyperparameters on Large Datasets

Aaron Klein, Stefan Falkner|arXiv (Cornell University)|May 23, 2016

Machine Learning and Data Classification被引用数 317

ひとこと要約

この論文は Fabolas を紹介します。データセットサイズを変数として損失とコストをモデル化することで、大規模データセット上でのハイパーパラメータ最適化を、安価なサブサンプルを評価しそれを全データへ外挿することで実現します。

ABSTRACT

Bayesian optimization has become a successful tool for hyperparameter optimization of machine learning algorithms, such as support vector machines or deep neural networks. Despite its success, for large datasets, training and validating a single configuration often takes hours, days, or even weeks, which limits the achievable performance. To accelerate hyperparameter optimization, we propose a generative model for the validation error as a function of training set size, which is learned during the optimization process and allows exploration of preliminary configurations on small subsets, by extrapolating to the full dataset. We construct a Bayesian optimization procedure, dubbed Fabolas, which models loss and training time as a function of dataset size and automatically trades off high information gain about the global optimum against computational cost. Experiments optimizing support vector machines and deep neural networks show that Fabolas often finds high-quality solutions 10 to 100 times faster than other state-of-the-art Bayesian optimization methods or the recently proposed bandit strategy Hyperband.

研究の動機と目的

全ての評価が高コストまたは実用的でない大規模データセットのハイパーパラメータ最適化を動機づける。
環境変数としてサブサンプル化されたデータセットを用いて検索を加速するための principled な方法を提案する。
小さいサブセットから full dataset の性能を外挿するベイズ最適化フレームワークを開発する。
情報利得と計算コストの自動的なトレードオフを有効にし、全データの性能をターゲットとする。

提案手法

カーネルをカスタマイズした Gaussian processes によって、ハイパーパラメータとデータセットサイズの関数として損失とコストをモデル化する。
データセットサイズの有限階的成分をカーネルに拡張し、s in [0,1] から s=1 へ外挿できるようにする。
取得関数として Entropy Search を用い、単位時間あたりの全データ最適点に関する情報利得を最大化する。
アクイジションにオーバーヘッド時間を組み込み、評価コストだけでなく wall-clock コストを反映させる。
データセットサイズのスケーリングを学習するために、安価な評価へ biased な設計で初期化する。
再現性のためにオープンソース実装（RoBO）を提供する。

実験結果

リサーチクエスチョン

RQ1サブサンプル評価を用いて全データセットでのハイパーパラメータの性能を信頼性高く推定できるか？
RQ2外挿を可能にするために、データセットサイズの関数として損失と計算コストをどうモデル化すべきか？
RQ3Fabolas は大規模データセットの高品質なハイパーパラメータを発見する際に標準的な Bayesian optimization、MTBO、Hyperband より優れているか？
RQ4決定ルールに評価オーバーヘッドを含めることの (x, s) 選択に対する影響は？

主な発見

Fabolas はしばしば他のベイズ最適化法や Hyperband よりも 10 倍〜100 倍速く高品質なハイパーパラメータを見つける。
SVM と深層ニューラルネットワークのタスクで、Fabolas は全データを用いたベースラインと同等かそれを上回る性能を維持しつつ、顕著な wall-clock の高速化を達成する。
連続的なデータセットサイズ変数を用いることで、多くの場合、全サイズでの評価を行わずに相関関係を学習できる。
MTBO、Hyperband、標準 BO と比較して、複数のデータセットで良い incumbents への収束がより速い。
この手法は CNN や残差ネットワークでも有効であるが、スピードアップはモデルとデータのスケーリング特性に依存する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。