Skip to main content
QUICK REVIEW

[論文レビュー] Autostacker: A Compositional Evolutionary Learning System

Boyuan Chen, Harvey Wu|arXiv (Cornell University)|Mar 2, 2018
Machine Learning and Data Classification参考文献 24被引用数 31
ひとこと要約

Autostacker は、分野知識や前処理を必要とせず、階層的スタッキングアーキテクチャと進化的アルゴリズムを用いて、自動的に高性能な機械学習パイプラインを発見する AutoML システムである。15のデータセットにおいて、精度と時間効率の両面で最先端または競争力のある性能を達成し、平均的にランダムフォレスト、TPOT、AutoSklearn を上回っている。

ABSTRACT

We introduce an automatic machine learning (AutoML) modeling architecture called Autostacker, which combines an innovative hierarchical stacking architecture and an Evolutionary Algorithm (EA) to perform efficient parameter search. Neither prior domain knowledge about the data nor feature preprocessing is needed. Using EA, Autostacker quickly evolves candidate pipelines with high predictive accuracy. These pipelines can be used as is or as a starting point for human experts to build on. Autostacker finds innovative combinations and structures of machine learning models, rather than selecting a single model and optimizing its hyperparameters. Compared with other AutoML systems on fifteen datasets, Autostacker achieves state-of-art or competitive performance both in terms of test accuracy and time cost.

研究の動機と目的

  • 手動による特徴工学や分野専門知識を必要とせずに、モデル選択とハイパーパrameter最適化を含むエンドツーエンドの機械学習パイプライン設計プロセスを自動化すること。
  • すべてのスタッキングレイヤーで元のデータを保持しつつ、合成特徴を追加することで、小規模かつスパースなデータセットにおける一般化性能を向上させること。
  • 単一モデル最適化フレームワークよりも広いモデル組み合わせの探索空間をカバーするため、多様な機械学習プリミティブの柔軟なスタッキングを可能にすること。
  • モデルアーキテクチャ、ハイパーパrameter、コンponent設定をチューナブルな変数として扱う進化的アルゴリズムを用いて、パイプライン探索を高速化すること。
  • 研究者や専門家向けに、堅牢で高速かつ高精度なベースラインを提供し、多様なベンチマークデータセットで既存の AutoML システムを上回ること。

提案手法

  • 各レイヤーは、直前のレイヤーに属するすべてのモデルの予測値と元の特徴の連結を処理する階層的スタッキングアーキテクチャを採用している。
  • 進化的アルゴリズム(EA)を用いて、レイヤー数、各レイヤーのモデル数、モデルタイプ、個々のモデルのハイパーパrameterなど、広大なハイパーパramータ空間を探索する。
  • パイプライン全体を最適化対象とする1つのエンティティとして扱うことで、単一モデルの最適化ではなく、複雑で組み合わせ的なモデル構造の発見が可能になる。
  • 各レイヤーでモデルの予測から得られる合成特徴を、元のデータセットに連結することで、段階的な特徴工学によるより深い表現学習を可能にする。
  • 選択、交差、変異を経て、集団のパイプラインが進化し、適応度はバリデーション精度によって決定される。
  • 動的設定をサポートしており、ユーザーは最大レイヤー数や各レイヤーのノード数を指定できるほか、Autostacker がこれらをハイパーパラメータとしてチューニングするようにもできる。

実験結果

リサーチクエスチョン

  • RQ1手動による特徴工学や分野特有の知識に依存せずに、進化的アルゴリズムが、高性能で組み合わせ的な機械学習パイプラインを効果的に探索できるか。
  • RQ2元のデータを保持し、段階的に合成特徴を追加する階層的スタッキングアーキテクチャは、小規模かつスパースなデータセットにおける性能をどのように向上させるか。
  • RQ3TPOT や AutoSklearn といった既存のフレームワークと比較して、AutoML システムが予測精度と計算効率の両面でどの程度優れているか。
  • RQ4多様な機械学習プリミティブの組み合わせを許容するモデルの柔軟性は、多様なデータセットにおけるパイプライン性能と一般化能力にどのような影響を与えるか。
  • RQ5ベイズ最適化に基づく AutoML システムと比較して、進化的探索戦略はスピードと正確性の面でどの程度優れているか。

主な発見

  • Autostacker は、15のすべてのデータセットでランダムフォレストベースラインと比較して100%高いテスト精度を達成し、15のうち12つで TPOT を上回った。
  • 15のうち9つのデータセットで Autostacker は AutoSklearn を上回ったが、heart-h および wine-recognition データセットでは AutoSklearn がベースライン性能を上回らなかった。
  • TPOT よりも最大6倍の時間コスト削減を達成し、特に dis(3772サンプル)のような大規模データセットで最高のテスト精度を記録した。
  • TPOT や AutoSklearn がランダムフォレストベースラインを上回らなかったデータセットでも、Autostacker は強力な性能を示した。
  • 3ラウンドの実験で各ラウンドの上位10パイプラインを合計30回のテスト結果として評価した結果、精度とスピードの両面ですべてのベースラインを平均的に上回った。
  • 成功を収めた一方で、Hill_Valley、allhypo、vehicle の3つのデータセットでは AutoSklearn が Autostacker を上回った。これは、特定の大規模データセットのシナリオにおいて、潜在的な利点がある可能性を示唆している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。