QUICK REVIEW

[論文レビュー] Practical Multi-fidelity Bayesian Optimization for Hyperparameter Tuning

Jian Wu, Saul Toscano-Palmerin|arXiv (Cornell University)|Mar 12, 2019

Advanced Multi-Objective Optimization Algorithms被引用数 56

ひとこと要約

taKG と taKG_empty を導入し、ハイパーパラメータ調整における多忠実度 Bayesian optimization のためのトレース対応の知識勾配取得関数を、トレース観測と複数の連続忠実度制御を活用して効率を改善。

ABSTRACT

Bayesian optimization is popular for optimizing time-consuming black-box objectives. Nonetheless, for hyperparameter tuning in deep neural networks, the time required to evaluate the validation error for even a few hyperparameter settings remains a bottleneck. Multi-fidelity optimization promises relief using cheaper proxies to such objectives --- for example, validation error for a network trained using a subset of the training points or fewer iterations than required for convergence. We propose a highly flexible and practical approach to multi-fidelity Bayesian optimization, focused on efficiently optimizing hyperparameters for iteratively trained supervised learning models. We introduce a new acquisition function, the trace-aware knowledge-gradient, which efficiently leverages both multiple continuous fidelity controls and trace observations --- values of the objective at a sequence of fidelities, available when varying fidelity using training iterations. We provide a provably convergent method for optimizing our acquisition function and show it outperforms state-of-the-art alternatives for hyperparameter tuning of deep neural networks and large-scale kernel learning.

研究の動機と目的

ハイパーパラメータ調整の計算負荷を、安価な低忠実度評価を用いることで低減することを目指す。
トレース情報を訓練反復全体および他の忠実度制御から活用する柔軟な獲得関数を開発する。
証明可能な収束性を持つ最適化手法を提供し、最先端のベンチマークに対する改善を実証する。
非常に低忠実度を過度に強調しない変種を提供し、バ batch および微分対応設定をサポートする。

提案手法

x をハイパーパラメータ、s を忠実度制御とする多忠実度 GP モデル g(x,s) を、トレース忠実度と非トレース忠実度を含めて定義する。
特定の x に対して集合 S の忠実度で g を観測することから得られる改善を定量化する、観測後の期待損失 L_n を導入する。
taKG を提案する：VOI_n(x,S) = L_n(empty) - L_n(x,S) をコストで割った値を最大化する獲得関数で、S は有限のカーディナリティを持つ。
情報価が消失するほぼゼロ忠実度での過剰サンプリングを緩和するため、ゼロ回避特性を持つ taKG_empty を提供する。
L_n の勾配の無偏的な確率勾配推定器を開発し、 taKG および taKG_empty を最適化するために多開始確率勾配上昇を用いる。
トレース忠実度のウォームスタート、および評価コストを考慮するための別の GP によるコストモデルを説明する。
バッチおよび導関価対応設定への拡張を行い、解析的な獲得値が存在しない場合にも効率的な最適化について議論する。

実験結果

リサーチクエスチョン

RQ1トレース情報を、ハイパーパラメータ調整のマルチ忠実度ベイズ最適化にどのように効果的に組み込むことができるか。
RQ2複数の連続忠実度に渡る情報量の獲得とコストのバランスを、証明可能に収束する獲得関数で効率的に設計できるか。
RQ3ウォームスタートとコストモデリングは、ニューラルネットワークとカーネル学習の実践的な性能にどのように影響するか。
RQ4taKG および taKG_empty は、既存の多忠実度および単一忠実度のベイズ最適化法よりも、ニューラルネットワークや大規模カーネル学習において優れているか。
RQ5バッチ評価や微分情報に対応して、さらなる効率化を実現できるか。

主な発見

taKG および taKG_empty は、FaBOLAS、Hyperband、BOCA などの最新ベースラインに対して、ニューラルネットワークのハイパーパラメータ調整および大規模カーネル学習で性能向上を示す。
複数の忠実度とトレース観測を用いることで、逐次およびバッチ設定で顕著な効率向上を達成。
提案された勾配法ベースの獲得関数最適化は、適切な条件下で定常点へ収束する。
近接ゼロの忠実度での過剰サンプリングを抑制する 0-回避型 taKG_empty は、情報値がほぼゼロになる場合のサンプリングを抑制しつつ、手動のコスト調整を必要としない。
トレース観測がない問題にも適用可能であり、連続忠実度を使用するときはなお高い性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。