[論文レビュー] Machine learning 2.0 : Engineering Data Driven AI Products
本論文は ML 2.0 を提案する。再利用可能な API を用いてデータ整理、特徴量エンジニアリング、モデル選択、デプロイを自動化する 8 週間のデータ駆動型のエンドツーエンドパイプラインで、非機械学習専門家が最小限の実用的データ駆動型製品としてデプロイ可能なモデルを提供できるようにする。
ML 2.0: In this paper, we propose a paradigm shift from the current practice of creating machine learning models - which requires months-long discovery, exploration and "feasibility report" generation, followed by re-engineering for deployment - in favor of a rapid, 8-week process of development, understanding, validation and deployment that can executed by developers or subject matter experts (non-ML experts) using reusable APIs. This accomplishes what we call a "minimum viable data-driven model," delivering a ready-to-use machine learning model for problems that haven't been solved before using machine learning. We provide provisions for the refinement and adaptation of the "model," with strict enforcement and adherence to both the scaffolding/abstractions and the process. We imagine that this will bring forth the second phase in machine learning, in which discovery is subsumed by more targeted goals of delivery and impact.
研究の動機と目的
- ML 1.0(発見重視)から迅速でデリバリー重視の ML 2.0 プロセスへのパラダイムシフトを喚起する。
- 非 ML 専門家が迅速にモデルを構築・デプロイできるような抽象化と自動化を導入する。
- データ整理、特徴エンジニアリング、モデルのデプロイを実現する具体的なエンドツーエンドフレームワークとツールを提供する。
- モデル由来情報およびメタデータツールを通じて再現性とガバナンスを促進する。
- 産業規模のユースケースとツールのリリースを通じてML 2.0の実用性を示す。
提案手法
- データ整理からデプロイと本番検証までの7段階の ML 2.0 ワークフローを定義する。
- リレーショナルデータを整理する Entityset API と自動特徴量エンジニアリングのための Featuretools DFS アプローチを紹介する。
- ラベリング、時系列を考慮したデータ処理、および予測エンジニアリングを説明し、学習用サンプルを作成する。
- 明示的なハイパーパラメータとドメイン固有の評価を伴うコスト主導のモデル探索アプローチを形式化する。
- 漸進的データ、実運用テスト、デプロイをサポートするエンドツーエンドの API 指向実装を提供する。
- ML 2.0 を実践運用するために Featuretools、Entityset、metadata.json、model_provenance.json、ATM などのツールをリリースおよび参照する。
実験結果
リサーチクエスチョン
- RQ1エンドツーエンドのデータ駆動型 ML ワークフローを自動化して発見時間を短縮し、最小限の ML 専門知識で実行できるようにするにはどうすればよいか?
- RQ2標準化された API ベースのフレームワーク(Entityset、DFS、AutoML)が迅速な開発・検証・デプロイ可能なモデルの実現を可能にするか?
- RQ3再現性とガバナンスを確保する機構(時刻インデックス、由来メタデータ、コストベース評価)は ML 2.0 のデプロイにどのように寄与するか?
主な発見
- 再利用可能な API を用いて、解決されていなかった問題に対して8週間のエンドツーエンドプロセスで即戦力のモデルを提供できる。
- Entityset と Deep Feature Synthesis による自動化は、さまざまなドメインのリレーショナル・時系列データの迅速な特徴量エンジニアリングを可能にする。
- コスト関数と明示的なモデル探索パイプラインは、標準的な指標を超えたドメイン特有の評価とモデル選択を可能にする。
- 統合テスト、本番検証、共有APIを用いたデプロイ手順を含む本番運用準備済みワークフロー。
- 由来情報とメタデータスキーマ(model_provenance.json、metadata.json)は ML デプロイのドリフト検知と再現性を支援します。
- 著者は ML 2.0 を実践的に有効化するために、複数のツール(Featuretools、Entityset、metadata.json、model_provenance.json、ATM)を公開する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。