Skip to main content
QUICK REVIEW

[論文レビュー] Automated Machine Learning: State-of-The-Art and Open Challenges

Radwa El Shawi, Mohamed Maher|arXiv (Cornell University)|Jun 5, 2019
Machine Learning and Data Classification参考文献 113被引用数 152
ひとこと要約

この論文は、CASH に対処する AutoML アプローチを網羅し、メタ学習、NAS、ハイパーパラメータ最適化、および AutoML ツールを調査し、オープンな課題と将来の方向性を論じる。

ABSTRACT

With the continuous and vast increase in the amount of data in our digital world, it has been acknowledged that the number of knowledgeable data scientists can not scale to address these challenges. Thus, there was a crucial need for automating the process of building good machine learning models. In the last few years, several techniques and frameworks have been introduced to tackle the challenge of automating the process of Combined Algorithm Selection and Hyper-parameter tuning (CASH) in the machine learning domain. The main aim of these techniques is to reduce the role of the human in the loop and fill the gap for non-expert machine learning users by playing the role of the domain expert. In this paper, we present a comprehensive survey for the state-of-the-art efforts in tackling the CASH problem. In addition, we highlight the research work of automating the other steps of the full complex machine learning pipeline (AutoML) from data understanding till model deployment. Furthermore, we provide comprehensive coverage for the various tools and frameworks that have been introduced in this domain. Finally, we discuss some of the research directions and open challenges that need to be addressed in order to achieve the vision and goals of the AutoML process.

研究の動機と目的

  • AutoML におけるCombined Algorithm Selection and Hyper-parameter tuning (CASH) の最先端手法を調査する。
  • データ理解からデプロイメントまで、エンドツーエンドの ML パイプラインの自動処理を強調する。
  • AutoML を可能にするツールとフレームワークの網羅を提供する。
  • AutoML におけるオープンな課題と将来の研究方向について議論する。

提案手法

  • CASH および AutoML アプローチの分類と分類主導の調査を提示する。
  • AutoML 検索のウォームスタートのためのメタ学習技術を要約する。
  • ニューラルアーキテクチャ探索(NAS)のカテゴリと手法を説明する。
  • ブラックボックスおよびマルチフィデリティの自動ハイパーパラメータ最適化技術をレビューする。
  • AutoML のツールとフレームワークとそれらの設計選択(集中型、分散型、クラウドベース)をカタログ化する。
  • ML パイプラインの前処理と後処理の自動化ステップを概説する。

実験結果

リサーチクエスチョン

  • RQ1CASH の現状最先端アプローチは何で、性能と探索コストのバランスをどうとるのか?
  • RQ2メタ学習、NAS、ハイパーパラメータ最適化は AutoML の効率性と有効性にどう寄与するか?
  • RQ3AutoML のためのフレームワークやツールは何が存在し、それらの比較的強みと制約は何か?
  • RQ4データ理解からデプロイメントまでの完全な ML パイプラインを自動化する際の残るオープン課題は何か?

主な発見

  • メタ学習と事前タスク情報を用いて AutoML 検索をウォームスタートさせ、探索時間を短縮する。
  • NAS 手法は5つのカテゴリに分類される:ランダム探索、強化学習、勾配法、進化計算、ベイズ最適化、タスクに応じて成功度は異なる。
  • ハイパーパラメータ最適化はブラックボックスとマルチフィデリティのアプローチに分類され、ベイズ最適化、TPE、SMAC、SA、GA、学習曲線ベースの終了を含む。
  • 複数の AutoML ツール/フレームワークが存在(Auto-Weka、Auto-Sklearn、TPOT、ML-Plan、Hyperopt-Sklearn、Recipe、Auto-MEKA_GGP、SmartML)で、メタ学習、アンサンブル、文法ベースの探索、階層的パイプラインなどの異なる設計選択を持つ。
  • 本論文はAutoMLリソースのリポジトリを提供し、データ理解からデプロイメントまでのエンドツーエンド自動化を論じる。
  • オープンな課題には、スケーラビリティ、効率性、および異なる分野間での多様なパイプラインコンポーネントの統合が含まれる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。