QUICK REVIEW

[論文レビュー] Hyperparameter Transfer Learning with Adaptive Complexity

Samuel Horváth, Aaron Klein|arXiv (Cornell University)|Feb 25, 2021

Machine Learning and Data Classification被引用数 3

ひとこと要約

本稿では、ネストドドロップと自動関連性決定（ARD）を用いて、順序付けられた非線形基底関数を段階的に複雑さを調整しながら学習する、マルチタスクベイジアン最適化手法ABRACを提案する。データの可用性に応じて有効な基底関数の数を動的に調整することで、サンプル効率を向上させるとともに計算コストを低減し、ハイパーパramータチューニングベンチマークにおいて、ABLR やガウス過程ベースのBOと比較して優れた性能を発揮する。

ABSTRACT

Bayesian optimization (BO) is a sample efficient approach to automatically tune the hyperparameters of machine learning models. In practice, one frequently has to solve similar hyperparameter tuning problems sequentially. For example, one might have to tune a type of neural network learned across a series of different classification problems. Recent work on multi-task BO exploits knowledge gained from previous tuning tasks to speed up a new tuning task. However, previous approaches do not account for the fact that BO is a sequential decision making procedure. Hence, there is in general a mismatch between the number of evaluations collected in the current tuning task compared to the number of evaluations accumulated in all previously completed tasks. In this work, we enable multi-task BO to compensate for this mismatch, such that the transfer learning procedure is able to handle different data regimes in a principled way. We propose a new multi-task BO method that learns a set of ordered, non-linear basis functions of increasing complexity via nested drop-out and automatic relevance determination. Experiments on a variety of hyperparameter tuning problems show that our method improves the sample ef

研究の動機と目的

新しいタスクの評価回数が過去のタスクより少ないという、逐次的ハイパーパramータチューニングタスクにおけるデータレジームの不一致を解消すること。
現在のデータレジームに合わせて移譲された知識の複雑さを適応的に調整することで、マルチタスクベイジアン最適化におけるサンプル効率を向上させること。
立方体スケーリングを回避しながら不確実性推定を維持する、ガウス過程のスケーラブルな代替手法を開発すること。
共有され、順序付けられた基底関数を学習し、動的活性化を実現することで、関連するハイパーパramータチューニングタスク間で原理的かつ効果的な転移学習を可能にすること。
正則化と自動関連性決定による有効基底関数の制限を通じて、ニューラルネットワークベースのマルチタスクBOにおける計算コストを低減すること。

提案手法

複数のハイパーパラメータチューニングタスクにわたって非線形基底関数を学習するため、共有された全結合ニューラルネットワークを用いる。
最終層にネストドドロップを適用し、複雑さが段階的に増加する基底関数の順序付き階層を強制する。
共有基底関数の上に、個々のタスクの目的をモデル化するためのタスク固有のベイジアン線形回帰ヘッドを統合する。
転移学習中に有効な基底関数の数を自動的に決定するために、自動関連性決定（ARD）を活用する。
期待改善（EI）などの獲得関数を surrogate モデルに適用し、逐次的かつ探索と活用のバランスを取った形で次回のハイパーパラメータ設定を選択する。
関連するタスクからの過去データと文脈情報（例：データセットサイズ、クラス分布）を用いて最適化をウォームスタートし、収束を加速する。

実験結果

リサーチクエスチョン

RQ1逐次的ハイパーパラメータチューニングタスクにおける変動するデータレジームに対応できるように、マルチタスクベイジアン最適化をどのように適合できるか。
RQ2ネストドドロップと自動関連性決定が、転移学習に適した共有基底関数の適応的複雑さを共同で実現できるか。
RQ3固定複雑さのマルチタスクBO手法と比較して、適応的基底関数選択がどれほどサンプル効率を向上させるか。
RQ4提案手法の計算コストは、ガウス過程ベースおよびニューラルネットワークベースのベースラインと比べてどの程度か。
RQ5本手法は、合成的、表形式、および実世界のSVMベンチマークを含む多様なハイパーパラメータチューニング問題に一般化可能か。

主な発見

ABRACは、すべてのベンチマークにおいて平均順位でABLRやガウス過程ベースのBOを上回り、特に表形式およびSVMタスクで顕著な優位性を示す。
OpenML-SVMベンチマークでは、ABRACが優れたAUC性能を達成し、45反復後にはABLR SGD固定のみが同等のAUCを達成するにとどまる。
ABRACは、ABLRおよびガウス過程と比較して、計算コストを100倍以上低減させ、大規模なハイパーパラメータチューニングに非常にスケーラブルである。
パラメータ化された二次関数実験では、290点のウォームスタートデータを用いても、ABRACはMT-GP-BOを含むすべてのベースラインを一貫して上回る。
表形式ベンチマークでは、ABRACは4つのデータセットすべてで平均順位とレグRETを最高水準に維持し、与えられた予算内でのランダムサーチや他の手法を著しく上回る。
本手法は、高次元の基底関数に対してほぼゼロの重みが割り当てられるなど、有効基底関数の制限によって過学習を効果的に防止する。これは、従来のABLRが過剰な基底関数の使用により過学習を起こすのとは対照的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。