Skip to main content
QUICK REVIEW

[論文レビュー] Progressive Data Science: Potential and Challenges

Çağatay Turkay, Nicola Pezzotti|arXiv (Cornell University)|Dec 19, 2018
Data Stream Mining Techniques参考文献 80被引用数 26
ひとこと要約

本論文は、逐次的なデータサイエンスパイプラインの速度を向上させるために、リアルタイムで徐々に精度を高める近似結果を提供する、プログレッシブ・データサイエンスという新しいパラダイムを提唱する。中間的な出力を早期に得ることで、データサイエンティストは誤りの検出、意思決定の見直し、データ選択、前処理、変換、マイニングの各段階における探索の加速を可能にする。これにより、試行錯誤のワークフローに費やす時間が大幅に削減される。

ABSTRACT

Data science requires time-consuming iterative manual activities. In particular, activities such as data selection, preprocessing, transformation, and mining, highly depend on iterative trial-and-error processes that could be sped-up significantly by providing quick feedback on the impact of changes. The idea of progressive data science is to compute the results of changes in a progressive manner, returning a first approximation of results quickly and allow iterative refinements until converging to a final result. Enabling the user to interact with the intermediate results allows an early detection of erroneous or suboptimal choices, the guided definition of modifications to the pipeline and their quick assessment. In this paper, we discuss the progressiveness challenges arising in different steps of the data science pipeline. We describe how changes in each step of the pipeline impact the subsequent steps and outline why progressive data science will help to make the process more effective. Computing progressive approximations of outcomes resulting from changes creates numerous research challenges, especially if the changes are made in the early steps of the pipeline. We discuss these challenges and outline first steps towards progressiveness, which, we argue, will ultimately help to significantly speed-up the overall data science process.

研究の動機と目的

  • データの前処理やモデルチューニングに分析担当者の50%以上を費やす、伝統的なデータサイエンスワークフローの時間のかかる反復的性質に対処すること。
  • KDDパイプラインのすべての段階にプログレッシブ性を導入することで、バッチ処理の限界を克服すること。
  • アナリストが近似結果を用いて早期に意思決定を評価・見直せる、インタラクティブで人間が関与するデータサイエンスを可能にすること。
  • 従来は反復的でないとされていたアルゴリズム(例:クラスタリング、学習)をプログレッシブ化するための研究的課題を特定・解決すること。
  • 人間の専門知識がプロセスの中心となるパラダイム転換を促進し、モデルの信頼性と解釈可能性を高めること。

提案手法

  • 最初の近似結果を素早く提供し、段階的に精度を高めるプログレッシブ計算モデルを導入すること。
  • KDDパイプラインの全段階(データ選択、前処理、変換、マイニング)にプログレッシブフィードバックを統合すること。
  • アナリストが早期の結果に基づいて、距離関数やクリーニングルールなどの意思決定を見直せるように、インタラクティブな探索を支援すること。
  • データベース、機械学習、可視化分野で既に確立されたプログレッシブ技術を基盤的コンponentsとして活用すること。
  • 収束速度が異なる複数の並列計算ストリーム間で、分析プロvenance(分析履歴)を維持するシステムを設計すること。
  • プログレッシブ環境におけるユーザーの意思決定を支援する、新しいインタラクションメタファーと不確実性の伝達方法を開発すること。

実験結果

リサーチクエスチョン

  • RQ1プログレッシブ計算を、データサイエンスパイプラインのすべての段階に統合することで、試行錯誤のワークフローに費やす時間をどのように短縮できるか?
  • RQ2従来はバッチ処理に依存していたアルゴリズム(例:クラスタリング、モデル学習)をプログレッシブ化するにあたり、主な課題は何か?
  • RQ3中間結果の品質と進捗状況を定量的に評価するには、信頼性のあるユーザー意思決定を支えるために何を測定すべきか?
  • RQ4アナリストがプログレッシブ・データサイエンスワークフローを効果的に進めるために、最も効果的なインタラクション技法とメタファーは何か?
  • RQ5収束速度が異なる複数の並列で進行する計算パス間で、分析プロベンance(分析履歴)をどのように管理できるか?

主な発見

  • プログレッシブ・データサイエンスにより、クラスタリングにおける不適切な距離関数の選択といった、不適切な選択の早期検出が可能になり、数秒で近似結果を提供することで、数時間にわたる無駄な計算を回避できる。
  • このアプローチにより、後続の段階(例:クラスタリング)からのインサイトに基づいて、以前の段階(例:データクリーニング)を再評価・見直すことが可能になり、データ品質とモデル性能の向上につながるフィードバックループが構築される。
  • すべてのタスクがプログレッシブ手法に適しているわけではない。たとえば、正確な答えが求められるタスク(例:MIN/MAXの計算)は近似による恩恵を受けにくく、ハイブリッドなバッチ・プログレッシブモデルの導入が不可欠である。
  • プログレッシブ手法は、複数の代替案を検討する探索的タスク(例:異なる距離関数のテスト)において特に効果的であり、初期段階で劣悪な選択肢を除外することで、大幅な時間節約が可能になる。
  • インタラクティブなフィードバックループを通じて人間の専門知識を統合することで、モデルの解釈可能性と信頼性が向上し、人間の監視なしに自動化が進む傾向に対抗できる。
  • 収束速度が異なる並列計算ストリームの管理や、プログレッシブ分析プロセスにおける有効なプロベンance追跡の開発という、未解決の研究的課題が依然として残っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。