QUICK REVIEW

[論文レビュー] Evaluation of a Tree-based Pipeline Optimization Tool for Automating Data Science

Randal S. Olson, Nathan Bartley|arXiv (Cornell University)|Mar 20, 2016

Advanced Multi-Objective Optimization Algorithms参考文献 14被引用数 32

ひとこと要約

この論文では、遺伝的プログラミングを用いて機械学習パイプライン設計を自動化するツリー型パイプライン最適化ツールであるTPOTを紹介する。TPOTは最小限のユーザー入力で競争力のある分類精度を達成しており、Pareto最適化によりランダムサーチよりもはるかにコンパクトで解釈可能なパイプラインが得られることを示している。

ABSTRACT

As the field of data science continues to grow, there will be an ever-increasing demand for tools that make machine learning accessible to non-experts. In this paper, we introduce the concept of tree-based pipeline optimization for automating one of the most tedious parts of machine learning---pipeline design. We implement an open source Tree-based Pipeline Optimization Tool (TPOT) in Python and demonstrate its effectiveness on a series of simulated and real-world benchmark data sets. In particular, we show that TPOT can design machine learning pipelines that provide a significant improvement over a basic machine learning analysis while requiring little to no input nor prior knowledge from the user. We also address the tendency for TPOT to design overly complex pipelines by integrating Pareto optimization, which produces compact pipelines without sacrificing classification accuracy. As such, this work represents an important step toward fully automating machine learning pipeline design.

研究の動機と目的

非専門家向けに機械学習パイプライン設計の面倒なプロセスを自動化すること。
前処理ステップ、モデル、ハイパーパrameterの選択に専門知識に依存することを減らすこと。
ガイド付き進化的探索によってパイプラインの効率性と解釈可能性を向上させること。
精度とパイプラインの複雑さのバランスをとるためにPareto最適化を統合すること。
自動パイプライン設計が基本的な機械学習解析を上回ることを実証すること。

提案手法

TPOTは、抽象構文木として表現された機械学習パイプラインを遺伝的プログラミングで進化させる。
各パイプラインは、事前に定義された探索空間から選ばれたデータ前処理およびモデリング演算子のシーケンスから構成される。
適合度は、トレーニングデータにおける交差検証を用いて分類精度に基づいて評価される。
Pareto最適化フレームワークを統合し、同時に精度の最大化とパイプラインの複雑さ（演算子数）の最小化を実現する。
複数世代にわたって、選択、交差、突然変異の操作を用いて高性能なパイプラインを進化させる。
最終的なパイプラインは、ユーザーによる検査およびデプロイ用に実行可能なPythonコードとしてエクスポートされる。

実験結果

リサーチクエスチョン

RQ1遺伝的プログラミングを用いた自動パイプライン最適化は、ユーザー入力なしの基本的な機械学習ワークフローを上回ることができるか？
RQ2ガイド付き進化的探索は、ランダムなパイプライン生成と比較して、性能および効率性においてどのように異なるか？
RQ3Pareto最適化は分類精度を損なわずにパイプラインの複雑さを効果的に低減できるか？
RQ4TPOTは大規模または複雑なデータセットにおいてスケーラブルか？
RQ5TPOTは人間の専門家が見逃しがちな、新しい高パフォーマンスのパイプライン構成をどれほど発見できるか？

主な発見

TPOTは、複数の実世界およびシミュレーテッドデータセットにおいて、基本的な機械学習解析と同等またはそれ以上の分類精度を達成した。
すべてのTPOTおよびTPOT-Paretoの実行が48時間以内に完了した一方、TPOT-Randomは大規模なデータセット（例：Hill-Valley、spambase）では120時間以内に10,000回の評価を完了できなかった。
TPOT-Randomのパイプラインは平均6つの演算子を有したが、TPOTとTPOT-Paretoはそれぞれ平均4つおよび2つの演算子を有しており、ガイド付き探索による顕著なコンパクト性が示された。
類似した精度を示したにもかかわらず、TPOT-Paretoのパイプラインはランダムなパイプラインよりも著しく解釈可能で計算効率が高かった。
スケーラビリティと効率性の観点から、ガイド付き進化的探索は不可欠であった。ランダムサーチは大規模なデータセットでは実行不可能になった。
Pareto最適化の統合により、高パフォーマンスで低複雑性のパイプラインが発見され、解釈可能性とプロダクション環境での利用可能性が向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。