QUICK REVIEW

[論文レビュー] Learning to Warm-Start Bayesian Hyperparameter Optimization

Jungtaek Kim, Saehoon Kim|arXiv (Cornell University)|Oct 17, 2017

Machine Learning and Data Classification参考文献 27被引用数 23

ひとこと要約

本論文では、深層特徴抽出器とメタ特徴抽出器を備えたシアン方式ネットワークを用いて、データセットのメタ特徴を学習することで、ベイジアンハイパーパramータ最適化（BHO）のウォームスタートを実現するメタラーニング手法を提案する。本手法は、学習済み埋め込みを用いて類似するデータセットを特定し、それらの履歴的な最適ハイパーパramータを初期化に使用することで、評価コストを顕著に削減する。この有効性は、畳み込みニューラルネットワーク（CNN）を用いた8つの画像分類データセットにおいて、収束性の向上によって実証された。

ABSTRACT

Hyperparameter optimization aims to find the optimal hyperparameter configuration of a machine learning model, which provides the best performance on a validation dataset. Manual search usually leads to get stuck in a local hyperparameter configuration, and heavily depends on human intuition and experience. A simple alternative of manual search is random/grid search on a space of hyperparameters, which still undergoes extensive evaluations of validation errors in order to find its best configuration. Bayesian optimization that is a global optimization method for black-box functions is now popular for hyperparameter optimization, since it greatly reduces the number of validation error evaluations required, compared to random/grid search. Bayesian optimization generally finds the best hyperparameter configuration from random initialization without any prior knowledge. This motivates us to let Bayesian optimization start from the configurations that were successful on similar datasets, which are able to remarkably minimize the number of evaluations. In this paper, we propose deep metric learning to learn meta-features over datasets such that the similarity over them is effectively measured by Euclidean distance between their associated meta-features. To this end, we introduce a Siamese network composed of deep feature and meta-feature extractors, where deep feature extractor provides a semantic representation of each instance in a dataset and meta-feature extractor aggregates a set of deep features to encode a single representation over a dataset. Then, our learned meta-features are used to select a few datasets similar to the new dataset, so that hyperparameters in similar datasets are adopted as initializations to warm-start Bayesian hyperparameter optimization.

研究の動機と目的

類似するデータセットからの事前知識を活用することで、ベイジアンハイパーパラメータ最適化（BHO）における高価な検証評価回数を削減すること。
ハイパラメータの転送に適した、効果的で一般化可能なメタ特徴を学習すること。
正確な類似データセットの検索を可能にする深層メトリック学習フレームワークを設計すること。
最も類似した履歴的データセットからのハイパーパラメータを初期化することで、BHOの収束性を向上させること。
ハイパラメータウォームスタートの文脈において、異なるメタ特徴学習アーキテクチャ（ADF 対 Bi-LSTM）の有効性を評価すること。

提案手法

ペairワイズなデータセット比較を目的としたシアン方式ニューラルネットワークアーキテクチャを採用：一方のブランチは個々のデータインスタンスからの深層特徴を抽出し、もう一方はそれらをデータセットごとにメタ特徴ベクトルに集約する。
ネットワークは、学習済みメタ特徴のユークリッド距離と、データセット間のターゲット距離（例：検証誤差の差）の差を最小化するように訓練される。
80個のデータセットからなるコレクションからメタ特徴を抽出し、新しいデータセットに対してはコサイン距離またはユークリッド距離を用いてメタ特徴空間におけるk番目の近隣を同定する。
k番目の近隣データセットから得られた最良のハイパーパラメータ設定を取得し、それらをBHOの初期点として使用することで、ランダムまたは準ランダム初期化を置き換える。
反復的に新しいハイパーパラメータを選択するため、ベイジアン最適化ループ内で期待改善（EI）やGP-UCBといった獲得関数を採用する。
2種類のシアン方式ネットワークのバリエーションを評価：1つは注目ベースの統合（ADF）を用い、もう1つは双方向LSTM（Bi-LSTM）を用いたメタ特徴集約。

実験結果

リサーチクエスチョン

RQ1学習済みメタ特徴は、ベイジアン最適化におけるハイパーパラメータウォームスタートを支援するためのデータセット類似度を効果的に測定できるか？
RQ2類似するデータセットからのハイパーパラメータを初期化することで、ランダム初期化と比較して必要な評価回数を削減できるか？
RQ3ハイパーパラメータウォームスタートの文脈において、異なるメタ特徴学習アーキテクチャ（例：ADF 対 Bi-LSTM）の性能はどのように比較できるか？
RQ4ウォームスタートは、多様な画像データセットにおけるCNNハイパーパラメータチューニングの収束速度と最終的パフォーマンスにどの程度向上効果をもたらすか？
RQ5提案手法は、異なる獲得関数（例：EI 対 GP-UCB）および初期化戦略に対して、どの程度ロバストか？

主な発見

Bi-LSTMに基づくメタ特徴学習が、ほとんどの実験でADFベースの学習を上回り、より優れたメタ特徴の一般化能力を示した。
学習済みメタ特徴からのk近傍探索を初期化に用いることで、一様分布、ラテンハイパーパラメータ、ハルトンサンプリングと比較して、収束が速く、検証誤差も低くなった。
類似するデータセットからの履歴的パフォーマンスデータを活用することで、BHOにおける必要な評価回数を削減し、最適化の効率性を向上させた。
CIFAR-10、MNIST、CUB-200-2011など8つの画像データセットにおける実験的結果は、EIおよびGP-UCBの両獲得関数において、すべてのテストケースで一貫した改善を示した。
学習済みメタ特徴は、ハイパーパラメータ知識の有効な転送を可能にした。類似データセットからの最良の設定が、最適化の強力な初期点として機能した。
コントラスト型損失を用いて訓練されたシアン方式ネットワークは、メタ特徴距離と実際のパフォーマンス差の乖離を効果的に最小化し、メトリック学習の目的関数の妥当性を裏付けた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。