[論文レビュー] Probabilistic Matrix Factorization for Automated Machine Learning
本論文は AutoML を確率的行列分解問題として定式化し、Gaussian process latent variable models を用いてデータセット全体のパイプライン性能を予測し、パイプラインの Bayesian-optimization 主導の探索を導く。
In order to achieve state-of-the-art performance, modern machine learning techniques require careful data pre-processing and hyperparameter tuning. Moreover, given the ever increasing number of machine learning models being developed, model selection is becoming increasingly important. Automating the selection and tuning of machine learning pipelines consisting of data pre-processing methods and machine learning models, has long been one of the goals of the machine learning community. In this paper, we tackle this meta-learning task by combining ideas from collaborative filtering and Bayesian optimization. Using probabilistic matrix factorization techniques and acquisition functions from Bayesian optimization, we exploit experiments performed in hundreds of different datasets to guide the exploration of the space of possible pipelines. In our experiments, we show that our approach quickly identifies high-performing pipelines across a wide range of datasets, significantly outperforming the current state-of-the-art.
研究の動機と目的
- ML パイプラインの選択とチューニングを自動化し、データ前処理とモデル選択を含む。
- データセット間の実験データを活用して、新しいデータセットでのパイプライン性能を予測する。
- 連続/離散/カテゴリカルなどの高次元かつ混合的なパイプライン空間を、パイプラインのインスタンス化を通じて扱う。
- 協調フィルタリングを Bayesian optimization と統合して、パイプライン探索を導く。
提案手法
- 確率的行列分解を用いてパイプライン-データセット性能マトリクス Y をモデル化する: Y ≈ XW。
- パイプライン性能の非線形性を捉えるため、非線形写像 f_d(x) の上に Gaussian process priors を配置する。
- GP priors に対して ARD を用いた squared exponential kernel を使用して潜在関数の滑らかさをモデル化する。
- GP尤度で周辺化して欠損データを扱い、X、θ、σ^2 の確率的勾配更新を行う。
- C_d = K(X_e(d), X_e(d)) + σ^2 I を用いた GP 回帰公式により新しいデータセットの予測を計算する。
- 評価する次のパイプラインを選択するために acquisition function を用い、特に Expected Improvement (EI) を用いる。
実験結果
リサーチクエスチョン
- RQ1データセット間の性能を、低次元のパイプライン潜在空間で捉えて、新しいデータセットでの結果を予測できるか?
- RQ2パイプライン評価を確率的行列分解タスクとして扱うことは、ベースラインよりも AutoML のパイプライン選択を改善するか?
- RQ3Bayesian optimization の acquisition function は、離散的/インスタンス化されたパイプライン空間の探索を効果的に導けるか?
- RQ4パイプライン-データセット性能マトリクスの欠損評価に対するアプローチの堅牢性はどの程度か?
- RQ5十分なデータが利用可能な場合、明示的なパイプラインメタデータの含める必要があるか?
主な発見
- PMF ベースの AutoML は、反復回数が増えるにつれて、保持外データセット 89 件で最も良い平均順位を一貫して達成する。
- 本手法は、保持外データセットにおける平均順位と最良パイプラインとの差の点で、auto-sklearn およびランダム探索のベースラインを上回る。
- Y のマトリクスエントリの 90% が欠損していても、方法は堅牢で依然として競合を上回る。
- 潜在埋め込み(次元数 20)は、パイプライン全体でモデル構造とハイパーパラメータを効果的に捉える。
- 十分な実験データが利用可能な場合、パイプラインメタデータを含めても性能は向上せず、モデルはYのみから学習する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。