QUICK REVIEW

[論文レビュー] Layered TPOT: Speeding up Tree-based Pipeline Optimization

Pieter Gijsbers, Joaquin Vanschoren|arXiv (Cornell University)|Jan 18, 2018

Evolutionary Algorithms and Applications参考文献 13被引用数 24

ひとこと要約

Layered TPOT は、段階的進化的アルゴリズムを用いて、徐々に大きなデータサブセット上で候補となる機械学習パイプラインを評価することにより、TPOTにおけるパイプライン最適化を高速化する。モデル品質を損なうことなく、しばしば 200 分も早く同等またはより優れたモデルを発見できるため、実行時間の大幅な削減が達成される。特に大規模データセットにおいて顕著である。

ABSTRACT

With the demand for machine learning increasing, so does the demand for tools which make it easier to use. Automated machine learning (AutoML) tools have been developed to address this need, such as the Tree-Based Pipeline Optimization Tool (TPOT) which uses genetic programming to build optimal pipelines. We introduce Layered TPOT, a modification to TPOT which aims to create pipelines equally good as the original, but in significantly less time. This approach evaluates candidate pipelines on increasingly large subsets of the data according to their fitness, using a modified evolutionary algorithm to allow for separate competition between pipelines trained on different sample sizes. Empirical evaluation shows that, on sufficiently large datasets, Layered TPOT indeed finds better models faster.

研究の動機と目的

TPOTにおける全データセットのパイプライン評価の高い計算コストを軽減すること。これは AutoML の主要なボトル neck である。
特に大規模データセットにおいて、モデルパフォーマンスを損なわず、最適化されたパイプラインに至るまでの時間を短縮すること。
段階的評価による優れた候補の優先順位付けにより、高品質なパイプラインへの収束を高速化すること。
大規模機械学習ワークフローにおける TPOT の実用性とアクセシビリティを向上させること。
段階的進化的設計が最適化効率とパイプライン品質に与える影響を調査すること。

提案手法

各レイヤーが徐々に大きなデータサブセット上でパイプラインを評価する段階的進化的フレームワークを導入する。
異なるデータサイズで訓練されたパイプライン同士の直接的なフィットネス比較を避けるために、変更を加えた進化的選択を用いる。
各レイヤー内で相対的フィットネスに基づいて、上位のパイプラインのみを次のレイヤーに転送する。
各レイヤー内で標準的な遺伝的プログラミング操作（変異、交叉）を適用し、レイヤー固有のデータサンプリングを実施する。
レイヤー固有の世代数と集団サイズを定義することで、データスケールに応じた適応的最適化を可能にする。
小さなデータサブセットで強く性能を示した個体のみが、上位のレイヤーに移行する転送メカニズムを採用する。

実験結果

リサーチクエスチョン

RQ1段階的評価は、モデル品質を低下させることなく、高品質な機械学習パイプラインを発見するまでの時間を短縮できるか？
RQ2多様なデータセットにおいて、速度とパイプライン精度の観点から、Layered TPOT と標準的な TPOT とを比較すると、どちらが優れているか？
RQ3レイヤーの細かさと転送戦略が、最適化効率と最終的なパイプライン品質に与える影響は何か？
RQ4特に大規模データセットにおいて、制限時間内に性能を発揮する点で、Layered TPOT は TPOT を上回るか？
RQ5高レイヤーにおけるハイパーパramータ（集団サイズ、生成数）の設定が、速度とパフォーマンスのトレードオフに与える影響は何か？

主な発見

大規模データセットでは、Layered TPOT（特に LTPOT-16）は、TPOT の最良パイプラインと同等かそれ以上の性能を発揮するが、200 分も早く到達することが多い。
LTPOT が TPOT の最終的な最良パイプラインと同等の性能を発揮した場合、その時点で TPOT のパイプラインは通常 0.2 AUROC 以上劣っている。
LTPOT-2 は TPOT と同等の速度で同程度のパイプラインを発見できるが、LTPOT-16 は特に小さな時間予算下でより速い収束を達成する。
18 個のデータセットと 9 個のシードを用いた 162 回の比較において、LTPOT-16 は時間 t における AUROC で大多数のケースで TPOT を上回った。
LTPOT-16 は大きな時間予算下では競争力が低下する傾向にあり、長時間実行における速度と最終的パフォーマンスのトレードオフが示唆された。
段階的構造により、ハイパーパramータの柔軟なチューニングが可能であり、さらなる最適化の余地がレイヤー間転送、集団サイズ、選択戦略に存在する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。