QUICK REVIEW

[論文レビュー] Benchmark and Survey of Automated Machine Learning Frameworks

Marc-André Zöller, Marco F. Huber|arXiv (Cornell University)|Apr 26, 2019

Machine Learning and Data Classification被引用数 16

ひとこと要約

本論文は、137の実世界データセットを用いた14の自動機械学習（AutoML）フレームワークと8つのハイパーパramータ最適化（HPO）アルゴリズムの包括的サーベイおよびベンチマークを提示する。AutoMLフレームワークは73のデータセットで、HPO手法は137のデータセットで評価され、これまでで最も包括的な独立したベンチマークを提供し、従来の機械学習パイプラインにおける現在のAutoMLアプローチの性能差および限界を明らかにする。

ABSTRACT

Machine learning (ML) has become a vital part in many aspects of our daily life. However, building well performing machine learning applications requires highly specialized data scientists and domain experts. Automated machine learning (AutoML) aims to reduce the demand for data scientists by enabling domain experts to build machine learning applications automatically without extensive knowledge of statistics and machine learning. This paper is a combination of a survey on current AutoML methods and a benchmark of popular AutoML frameworks on real data sets. Driven by the selected frameworks for evaluation, we summarize and review important AutoML techniques and methods concerning every step in building an ML pipeline. The selected AutoML frameworks are evaluated on 137 data sets from established AutoML benchmark suits.

研究の動機と目的

機械学習パイプライン構築の全段階（前処理、特徴量工学、モデル選択、ハイパーパramータチューニングを含む）をカバーする、現在のAutoML技術の包括的サーベイを提供すること。
137の実世界データセットを用いた8つのHPOアルゴリズムの独立的かつ大規模なベンチマークを実施し、HPO手法を独立して評価する、初めての包括的評価を提供すること。
73の実データセットを用いて6つのAutoMLフレームワークの実験的評価を行い、さまざまなデータ特性における性能、効率性、耐障害性を比較すること。
現在のAutoMLシステムにおける限界および未解決の研究課題（特に複雑なパイプライン構造の自動化およびスケーラビリティに関するもの）を特定すること。
自動機械学習パイプライン合成のための数学的定式化を確立し、既存の文献における問題定式化と比較すること。

提案手法

著者らは、OpenMLの標準化されたベンチマークデータセットを用いて、auto-sklearn、H2O AutoML、TPOT、ATM、BOHB、SMAC、hyperopt、Optunityを含む14のAutoMLおよびHPOフレームワークを評価する。
HPOベンチマークでは、137の実世界データセットを用い、標準的な分類指標を用いて8つのアルゴリズム（ランダムサーチ、ベイズ最適化（BOHB、SMAC、BOHB）、木構造型パルゼン推定（TPE）、Hyperopt、Optuna、RoBO）を比較する。
AutoMLフレームワークの評価には、OpenMLの73のデータセットを用い、全フレームワークにおける平均正解率と実行時間を測定し、ウィルコクソン符号順位検定を用いて統計的有意性を評価する。
自動機械学習パイプライン合成のための数学的定式化を提案し、パイプライン構造探索、アルゴリズム選択、ハイパーパramータ最適化を統合的なフレームワークに統合する。
フレームワークおよびHPO手法間の性能差を可視化するために、Bland-Altmanプロットおよび散布図を用いた対比較戦略を採用する。
欠落または失敗した実行（「–」でマーク）の処理を含み、信頼区間および統計的有意性検定を用いて結果を報告する。

実験結果

リサーチクエスチョン

RQ1異なるHPOアルゴリズム（例：ベイズ最適化、ランダムサーチ、TPE）は、多様な実世界データセットにおいて、予測性能および効率性の観点でどのように比較されるか？
RQ2どのAutoMLフレームワークが、幅広い実世界の分類タスクにおいて平均正解率が高く、最も速く収束するか？
RQ3現在のAutoMLフレームワークは、複雑なデータや高次元データを処理する際にどのような限界を示し、さまざまなデータタイプにおいて耐障害性はどのように比較されるか？
RQ4AutoMLフレームワークは、分野の専門知識を必要とせずに、特徴量工学、前処理、モデル選択を含む完全なパイプラインをどの程度自動化できるか？
RQ5HPO手法の性能特性は、データセットのサイズ、クラス不均衡、特徴量の複雑さの違いによってどのように変化するか？

主な発見

BOHB（ベイズ最適化ハイパーバンド）は、137のデータセット全体で平均正解率0.82910を達成し、ランダムサーチや他のベースラインを顕著に上回った。
auto-sklearnとH2O AutoMLは全体的に優れたパフォーマンスを示し、auto-sklearnは73のデータセットで平均正解率0.81075を記録し、上位に位置した。
シンプルであるにもかかわらず、ランダムサーチは多くの場合、先進的なベイズ最適化手法とほぼ同等の性能を示し、わずかな性能低下にとどまった。
TPOT や hyperopt-sklearn などの複数のフレームワークは、パフォーマンスに大きなばらつきを示し、10〜15％のデータセットで有効なパイプラインを生成できなかった（「–」でマーク）。
本研究では、ニューラルアーキテクチャ探索やディープラーニングコンponentsに依存するフレームワーク（例：TPOT）が、小規模またはテーブル形式のデータセットでは安定性に欠け、収束しない傾向があることが判明した。
統計的分析により、SMACとBOHBは一貫して上位のHPO手法であり、他の手法よりも統計的に有意な勝利数が最も多いことが明らかになった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。