[論文レビュー] Fast Bayesian Optimization of Machine Learning Hyperparameters on Large Datasets
Fabolasはデータセットサイズを連続入力として扱うことでベイズ最適化を拡張し、小さなサブセットでハイパーパラメータを学習し、全データへ外挿して大規模データセットでのハイパーパラメータ調整を加速させる。
Bayesian optimization has become a successful tool for hyperparameter optimization of machine learning algorithms, such as support vector machines or deep neural networks. Despite its success, for large datasets, training and validating a single configuration often takes hours, days, or even weeks, which limits the achievable performance. To accelerate hyperparameter optimization, we propose a generative model for the validation error as a function of training set size, which is learned during the optimization process and allows exploration of preliminary configurations on small subsets, by extrapolating to the full dataset. We construct a Bayesian optimization procedure, dubbed Fabolas, which models loss and training time as a function of dataset size and automatically trades off high information gain about the global optimum against computational cost. Experiments optimizing support vector machines and deep neural networks show that Fabolas often finds high-quality solutions 10 to 100 times faster than other state-of-the-art Bayesian optimization methods or the recently proposed bandit strategy Hyperband.
研究の動機と目的
- 高価または時間を要する全評価が必要な大規模データセットに対して、ハイパーパラメータ最適化を動機づける。
- データセットサイズを連続的な入力として組み込み、スケーリング挙動を学習するベイズ最適化手法を導入する。
- 安価で小さなサブセットを評価し、それを全データセットへ外挿することで、ハイクオリティなハイパーパラメータを見つけるのに要する実行時間を削減する。
提案手法
- ハイパーパラメータ x と相対データセットサイズ s の関数として損失と計算コストの両方をガウス過程でモデリングし、s に特化したカーネルを用いる。
- エントロピー探索を拡張したエントロピー型獲得関数を用いて、単位コストあたりの全データセットの最適ハイパーパラメータに関する情報利得を最大化する。
- データセットサイズ s を連続的な環境変数として扱い、情報利得と評価コストのトレードオフで評価する (x, s) 対を選択する。
- コストオーバーヘッドを組み込み、GPハイパーパラメータを周辺化するためにMCMCを用い、学習を安定化させる事前分布を適用する。
- 小さなサブセットに biasした安価な設計で初期化してスケーリング挙動を学習し、獲得関数を用いて繰り返し改良する。
実験結果
リサーチクエスチョン
- RQ1データセットサイズをハイパーパラメータ調整のための連続的入力としてベイズ最適化に組み込むにはどうすればよいか?
- RQ2サブセットサイズ全体で損失とコストを共同予測するモデルは、全データセットで高品質なハイパーパラメータの探索を迅速化できるか?
- RQ3良好な構成に到達するまでの実行時間の観点で、Fabolasは標準的なベイズ最適化、MTBO、Hyperbandとどう比較されるか?
- RQ4データサイズに対する性能のスケーリングを学習する際のサブセットサイズスケジューリングの影響はどのようなものか?
- RQ5このアプローチをニューラルネットワークのハイパーパラメータと大規模データセットに効果的に拡張できるか?
主な発見
- Fabolasは大規模データセットにおいて、最先端手法より10〜100倍早く良好なハイパーパラメータを見つける。
- SVMとCNNの実験を通じて、FabolasはしばしばWall-clock timeを大幅に削減しつつ高品質な構成を特定した。
- MTBOおよびHyperbandと比較して、Fabolasは通常、より安価な小サブセットでの評価を用いながら、強力なインカムへより速く収束する。
- 本手法はコストをモデル化するために s における縮退有限階数カーネルと、損失をモデル化する単調基底を用い、s=1 への外挿を可能にする。
- 実データ結果には MNIST の SVM および CIFAR-10/SVHN の CNN が含まれ、実行ごとに堅牢な性能と速度改善を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。