QUICK REVIEW

[論文レビュー] AutoGluon-Tabular: Robust and Accurate AutoML for Structured Data

Nick Erickson, Jonas Mueller|arXiv (Cornell University)|Mar 13, 2020

Machine Learning and Data Classification参考文献 41被引用数 157

ひとこと要約

AutoGluon-Tabular は、表形式データのためのオープンソース AutoML フレームワークで、マルチレイヤー積み上げと反復バギングを用いて、最小限のユーザー入力で堅牢で高精度な予測を提供し、ベンチマーク上でいくつかの既存 AutoML プラットフォームを上回ります。

ABSTRACT

We introduce AutoGluon-Tabular, an open-source AutoML framework that requires only a single line of Python to train highly accurate machine learning models on an unprocessed tabular dataset such as a CSV file. Unlike existing AutoML frameworks that primarily focus on model/hyperparameter selection, AutoGluon-Tabular succeeds by ensembling multiple models and stacking them in multiple layers. Experiments reveal that our multi-layer combination of many models offers better use of allocated training time than seeking out the best. A second contribution is an extensive evaluation of public and commercial AutoML platforms including TPOT, H2O, AutoWEKA, auto-sklearn, AutoGluon, and Google AutoML Tables. Tests on a suite of 50 classification and regression tasks from Kaggle and the OpenML AutoML Benchmark reveal that AutoGluon is faster, more robust, and much more accurate. We find that AutoGluon often even outperforms the best-in-hindsight combination of all of its competitors. In two popular Kaggle competitions, AutoGluon beat 99% of the participating data scientists after merely 4h of training on the raw data.

研究の動機と目的

構造化データ／表形式データのエンドツーエンドの機械学習を、最小限のユーザー入力で自動化する。
異種データセットと欠損値を扱う堅牢なデータ前処理を提供する。
時間制約の下で予測精度を最大化する多層モデルアンサンブル戦略を開発・評価する。
多様なベンチマークにわたって、既存のプラットフォームと比較した AutoML の性能を評価する。

提案手法

データを前処理し、タスクタイプを推定し、データを分割し、複数のモデルを訓練し、最適化されたアンサンブルを構築するワンライントレーニング API。
モデル非依存の前処理と、テキスト・欠損値・カテゴリカル変数の処理を含むモデル固有の前処理という2段階のデータ処理。
ニューラルネットワーク、LightGBM、CatBoost、Random Forest、Extremely Randomized Trees、KNNを含む事前定義済みモデルのセットの使用。
カテゴリカル変数の各特徴量埋め込みを適用し、出力へスキップ接続を持つニューラルネットワークアーキテクチャ。
層をまたいで基礎モデルがスタッカーにフィードする新規の多層スタックアンサンブル。入力特徴は前の層の予測と連結される（スキップ接続を含む）。
反復 k-分割バギング（n 回繰り返し）により、アウト・オブ・フォールド予測を生成し過学習を緩和、安定性のために繰り返しで平均化。
スタッキング層ごとに時間を割り当て、進捗をチェックポイント化し、フォールトトレランスのためにモデルの失敗を許容する訓練戦略。

実験結果

リサーチクエスチョン

RQ1固定された時間予算の下で、AutoGluon-Tabular は多様な表データセットの集合に対して他の AutoML フレームワークとどのように比較されるでしょうか？
RQ2反復 k-分割バギングを伴う多層スタッキングは、従来の CASH ベースの AutoML アプローチと比べて精度と堅牢性を改善しますか？
RQ3AutoGluon-Tabular は、手動の特徴量エンジニアリングなしで、混在タイプと欠損値を含む生データを自動的に処理できますか？
RQ4提案されたニューラルネットワーク埋め込みとスキップ接続が表形式の AutoML アンサンブルにもたらす実証的な利益は何ですか？

主な発見

AutoGluon は、Kaggle/OpenML の50タスクのスイートで、いくつかの AutoML フレームワークよりも高速で、より堅牢で、より正確です。
ベンチマークデータセットで、競合するすべてのフレームワークの中で、事後最良の組み合わせよりも勝ることが多い。
Kaggle コンペティションでは、生データで4時間の訓練後に参加データサイエンティストの99%を打ち負かした。
AutoGluon は、ベンチマーク全体で指定時間予算（1h、4h、長時間など）を遵守しつつ高精度を達成し、訓練失敗が少ない。
アブレーション研究は、構成要素を削除すると性能が低下することを示しており（反復バギング、多層スタッキング、バギング、ネットワーク機能）、それらの重要性を浮き彫りにしている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。