[論文レビュー] Goals, Process, and Challenges of Exploratory Data Analysis: An Interview Study
本研究は18人のアナリストへのインタビューを通じて、EDAの目的(プロファイリングとディスカバリー)、プロセス、文脈、課題、および反復的作業を自動化し探索を導くツールの設計機会を特徴づける。
How do analysis goals and context affect exploratory data analysis (EDA)? To investigate this question, we conducted semi-structured interviews with 18 data analysts. We characterize common exploration goals: profiling (assessing data quality) and discovery (gaining new insights). Though the EDA literature primarily emphasizes discovery, we observe that discovery only reliably occurs in the context of open-ended analyses, whereas all participants engage in profiling across all of their analyses. We describe the process and challenges of EDA highlighted by our interviews. We find that analysts must perform repetitive tasks (e.g., examine numerous variables), yet they may have limited time or lack domain knowledge to explore data. Analysts also often have to consult other stakeholders and oscillate between exploration and other tasks, such as acquiring and wrangling additional data. Based on these observations, we identify design opportunities for exploratory analysis tools, such as augmenting exploration with automation and guidance.
研究の動機と目的
- 実践における探索的データ分析(EDA)の目標を明確化する。これにはプロファイリングとディスカバリーを含む。
- 分析の文脈、タスク、協働がEDAのワークフローにどのような影響を与えるかを理解する。
- EDAに関連するデータ取得、前処理、探索、モデリング、報告の共通の課題を特定する。
- アナリストが時間とリソースをどのように配分し、探索をいつ終えるかを説明する。
- 自動化、ガイダンス、出自情報の保持を支援するEDAツールの設計機会を提案する。
提案手法
- 学術機関と産業界の経験豊富なアナリスト18名に対して半構造化インタビューを実施する。
- インタビュー記録を反復的にコード化してテーマを特定し、代表的な引用で結果を裏付ける。
- 分析プロジェクト、探索目標、ハイレベルなタスク、文脈、および課題を特徴づける。
- 探索を中核的な活動として組み込むよう、既存のデータ分析モデルを修正する。
- 探索と相互作用するデータ取得と前処理のタスクを分析する。
- 探索指向のツールに対する設計上の含意を統合する。
実験結果
リサーチクエスチョン
- RQ1EDAにおける共通の分析目標は何か、そしてプロファイリングとディスカバリーが実践でどのように現れるか?
- RQ2分析の文脈とタスク構造がEDAプロセスとその課題をどのように形作るのか?
- RQ3EDA中のデータ取得、前処理、探索、協働における再発する課題は何か?
- RQ4アナリストは探索をいつ止めるべきかをどのように判断し、反復的な探索タスクをどう自動化するのか?
- RQ5探索的データ分析の課題を緩和するツール設計の機会は何か?
主な発見
- すべてのアナリストはデータの内容を把握し品質を評価するためのプロファイリングに従事し、一方でディスカバリーは主にオープンエンデッドな分析で確実に生じる。
- EDAのタスクは通常、取得、前処理、探索、モデリング、報告を結びつける反復ループであり、探索はしばしばモデリングに先行するが、必ずしもそうとは限らない。
- アナリストはどの変数を探索するかの選択、反復的タスクの処理、大規模で多源のデータセットへの対処、探索をいつ終えるべきかの判断といった課題に直面する。
- ドメイン知識と運用知識、利害関係者の意見、および協働は探索の成果とさまざまなツール・言語の使用を形作る。
- ルーティン作業の自動化、分析実践のガイド、データ前処理のサポート、分析履歴と出自情報の保持を実現する探索ツールのニーズがある。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。