Skip to main content
QUICK REVIEW

[論文レビュー] AMLB: an AutoML Benchmark

Pieter Gijsbers, Marcos L. P. Bueno|arXiv (Cornell University)|Jul 25, 2022
Machine Learning and Data Classification被引用数 23
ひとこと要約

AMLBは、9つのAutoMLフレームワークを、71の分類タスクと33の回帰タスクにわたって比較する、オープンソースかつ拡張可能なベンチマークとツールを導入し、精度・推論時間・失敗を分析します。

ABSTRACT

Comparing different AutoML frameworks is notoriously challenging and often done incorrectly. We introduce an open and extensible benchmark that follows best practices and avoids common mistakes when comparing AutoML frameworks. We conduct a thorough comparison of 9 well-known AutoML frameworks across 71 classification and 33 regression tasks. The differences between the AutoML frameworks are explored with a multi-faceted analysis, evaluating model accuracy, its trade-offs with inference time, and framework failures. We also use Bradley-Terry trees to discover subsets of tasks where the relative AutoML framework rankings differ. The benchmark comes with an open-source tool that integrates with many AutoML frameworks and automates the empirical evaluation process end-to-end: from framework installation and resource allocation to in-depth evaluation. The benchmark uses public data sets, can be easily extended with other AutoML frameworks and tasks, and has a website with up-to-date results.

研究の動機と目的

  • 自動機械学習フレームワークの標準化された、再現性のあるベンチマーキングを促進し、一般的な評価上の落とし穴を回避する。
  • フレームワークのインストール、リソース割り当て、実証的評価を自動化するオープンツールを提供する。
  • 多くのタスクにわたる精度、推論時間のトレードオフ、失敗分析を含む複数の性能面を評価する。
  • 多様なAutoMLフレームワークとオープンデータセットとの拡張性のある統合を提供し、広い適用性を確保する。

提案手法

  • AMLBを、AutoMLフレームワークへの拡張可能な統合インターフェースを備えたオープンベンチマークとして紹介する。
  • 制御されたリソース予算の下で、71の分類タスクと33の回帰タスクにわたり、9つのよく知られたオープンソースAutoMLフレームワークを評価する。
  • 最終モデル精度、推論時間、失敗分析など、複数の指標を用いてフレームワークの差異を分析する。
  • Bradley-Terry trees を用いて、フレームワークのランキングが異なるタスクのサブセットを特定する。
  • インストールから評価、結果のビジュアライゼーションまで、エンドツーエンドのプロセスを自動化するオープンソースのベンチマーキングツールを提供する。

実験結果

リサーチクエスチョン

  • RQ1多様な表形式タスクのセットにおいて、一般的な AutoML フレームワークは予測精度の点でどのように比較されるか。
  • RQ2標準化された予算下で、精度と推論時間とのトレードオフはフレームワーク間でどうなるか。
  • RQ3Bradley-Terry trees のような高度な分析によって明らかになる、フレームワークのランキングが異なるタスクのサブセットはどれか。

主な発見

  • ベンチマークは9つの AutoML フレームワークを、71の分類タスクと33の回帰タスクで評価します。
  • フレームワーク間の比較は、精度、推論時間のトレードオフ、観測された失敗を考慮します。
  • Bradley-Terry trees は、相対的なフレームワークランキングが異なるタスクのサブセットを特定します。
  • オープンソースの AMLB ツールは複数のフレームワークと統合し、エンドツーエンドの評価とレポート作成を自動化します。
  • このベンチマークは再現性のある評価と、オープンデータセットおよび新しいフレームワークとの拡張可能な統合をサポートします。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。