[論文レビュー] Tunability: Importance of Hyperparameters of Machine Learning Algorithms
本論文はハイパーパラメータ調整を統計的問題として定式化し、デフォルト値と調整可能性の指標を定義し、38のOpenMLデータセットに対して6つのアルゴリズムをベンチマークして、調整が性能をどれだけ改善するかを定量化します。データ駆動型の最適デフォルト、実用的な調整スペース、そしてどのハイパーパラメータが最も重要であるかという洞察を提供します。
Modern supervised machine learning algorithms involve hyperparameters that have to be set before running them. Options for setting hyperparameters are default values from the software package, manual configuration by the user or configuring them for optimal predictive performance by a tuning procedure. The goal of this paper is two-fold. Firstly, we formalize the problem of tuning from a statistical point of view, define data-based defaults and suggest general measures quantifying the tunability of hyperparameters of algorithms. Secondly, we conduct a large-scale benchmarking study based on 38 datasets from the OpenML platform and six common machine learning algorithms. We apply our measures to assess the tunability of their parameters. Our results yield default values for hyperparameters and enable users to decide whether it is worth conducting a possibly time consuming tuning strategy, to focus on the most important hyperparameters and to chose adequate hyperparameter spaces for tuning.
研究の動機と目的
- 統計的観点からハイパーパラメータ調整の問題を定式化し、データベースデフォルトを定義する。
- ハイパーパラメータおよびハイパーパラメータ組み合わせの調整可能性を定量化する指標を導入する。
- 代理モデルを用いて調整可能性と最適な調整スペースを推定する手順を開発する。
- 大規模なOpenMLベンチマークに適用して、実用的なデフォルト値とアルゴリズム横断の洞察を導出する。
提案手法
- R( theta)を、ハイパーパラメータ配置 theta に対する期待リスクとして定義する。
- m個のデータセット上で、R^{(j)}( theta)の要約を最小化することにより最適デフォルト theta^*を提案する。
- デフォルトと最適リスクの差に基づくd^{(j)}およびd_i^{(j)}を導入する。
- ハイパーパラメータの組み合わせについても調整可能性を拡張し、g_{i1,i2}などの連続的調整比較を含めた共通利益を定義する。
- データセットごとの分位数を用いて、頑健な調整範囲を捉える最適ハイパーパラメータ空間3A*を定義する。
- 代理モデル(ランダムフォレスト等)を用いてR^{(j)}( theta)を推定し、黒箱最適化を用いてデフォルトと調整値を求める。
- 6つのアルゴリズム(glmnet、rpart、kknn、svm、ranger、xgboost)を用いた38個のOpenML100二値分類データセットで、調整可能性を評価するためにクロスバリデーションを実施する。
実験結果
リサーチクエスチョン
- RQ1多様なデータセットに対してうまく機能するデフォルト値はどう定義すべきか。
- RQ2全体として一般的なMLアルゴリズムはどれくらい調整可能で、どのハイパーパラメータが最も影響力があるか。
- RQ3個々のハイパーパラメータと組み合わせの調整による利得はどう異なるか。
- RQ4データセット全体で性能が向上する場所を捉える適切なハイパーパラメータ調整スペースは何か。
- RQ5代理モデルは調整可能性を推定し自動チューニングをどう導くか。
主な発見
- 最適デフォルトは、ソフトウェアデフォルトに対して複数のアルゴリズムで性能を著しく改善し、手法ごとに調整可能性は異なる。
- glmnetとsvmはrangerより高い調整可能性を示し、rangerは本研究で最も小さな調整可能性を示した。
- 個々のハイパーパラメータは substantial な調整可能性を持つ(例:svmのgamma, lambda;xgboostのeta, booster)。
- ハイパーパラメータペアの共同調整は、単一パラメータの調整よりも大きなゲインを生むことが多い(例:rpartのminsplitとminbucket)。
- 定義された調整スペース(5分位数と95分位数を用いる)は、多くのデータセットに対して最適デフォルトを包含し、いくつかのパッケージデフォルトは頑健な範囲の外にある。
- 代理モデル(ランダムフォレストなど)は、R( theta)の信頼できる推定を提供し、効率的な調整判断を可能にする。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。