QUICK REVIEW

[論文レビュー] An Open Source AutoML Benchmark

Pieter Gijsbers, Erin LeDell|arXiv (Cornell University)|Jul 1, 2019

Machine Learning and Data Classification参考文献 10被引用数 48

ひとこと要約

この論文は、オープンソースで拡張性のある AutoML ベンチマークフレームワークを提示し、それを用いて4つの AutoML システムを39のデータセットで比較します。いずれのツールも支配的ではなく、現行の AutoML 手法にとっていくつかのデータセットが依然として難しいことを示しています。

ABSTRACT

In recent years, an active field of research has developed around automated machine learning (AutoML). Unfortunately, comparing different AutoML systems is hard and often done incorrectly. We introduce an open, ongoing, and extensible benchmark framework which follows best practices and avoids common mistakes. The framework is open-source, uses public datasets and has a website with up-to-date results. We use the framework to conduct a thorough comparison of 4 AutoML systems across 39 datasets and analyze the results.

研究の動機と目的

小規模で静的なデータセット集に過剰適合するのを避けるため、AutoML ツールの公正で拡張可能なベンチマークを推進する。
最新の AutoML 比較のためのオープンなフレームワークとウェブサイトを提供する。
サイズや特徴量のタイプが異なる多様なデータセットで複数の AutoML システムを評価する。
現在の AutoML アプローチの長所と短所をコミュニティに伝え、今後の研究を導く。

提案手法

公開データセットを備えたオープンで拡張可能なベンチマークフレームワークと、最新結果のための付随ウェブサイトを開発する。
サイズ、特徴量タイプ、欠損値が異なる39の分類データセットのベンチマークを記録する。
標準化された指標を使用する（2クラスは AUROC、マルチクラスは対数損失） ten-fold cross-validationとともに。
再現性のある比較を可能にするためにリソース制約を固定する（AWS m5.2xlarge 相当）。
デフォルトのハイパーパラメータ値と事前定義のリソース予算で AutoML ツールを評価し、典型的な使用を反映させる。定数予測子や Random Forest の変種などのベースラインと比較する。

実験結果

リサーチクエスチョン

RQ1多様な実世界の分類データセットに対して、異なる AutoML システムはどのように比較されるか。
RQ2実用的なリソース予算の下で、AutoML ツールは未調整または調整済みの Random Forest のような単純なベースラインを一貫して上回るか。
RQ3データセットの特性（例：サイズ、特徴量タイプ、クラス不均衡）が AutoML システムの相対的な性能にどのように影響するか。
RQ4長時間のタイムバジェットで AutoML ツールをベンチマークする際、過剰適合やメモリ管理の問題の兆候はあるか。

主な発見

すべてのデータセットとタスクで、1つの AutoML システムが一貫して他を上回ることはない。
いくつかのデータセットではフレームワーク間でかなりの差が見られるが、他のデータセットでは調整済み Random Forest に対して僅差の利得しかない。
Auto-WEKA はマルチクラス問題で長い時間予算で実行すると過剰適合の兆候を示す。
いくつかのデータセットでは、すべての AutoML ツールが Random Forest ベースラインを下回る。特に高次元問題や高度にマルチクラスな問題でそうなる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。