Skip to main content
QUICK REVIEW

[论文解读] Goals, Process, and Challenges of Exploratory Data Analysis: An Interview Study

Kanit Wongsuphasawat, Yang Liu|arXiv (Cornell University)|Nov 1, 2019
Data Visualization and Analytics参考文献 63被引用 44
一句话总结

该研究采访了18位分析师,以刻画EDA目标(轮廓分析与发现)、过程、背景、挑战,以及面向自动化重复任务和引导探索的工具设计机会。

ABSTRACT

How do analysis goals and context affect exploratory data analysis (EDA)? To investigate this question, we conducted semi-structured interviews with 18 data analysts. We characterize common exploration goals: profiling (assessing data quality) and discovery (gaining new insights). Though the EDA literature primarily emphasizes discovery, we observe that discovery only reliably occurs in the context of open-ended analyses, whereas all participants engage in profiling across all of their analyses. We describe the process and challenges of EDA highlighted by our interviews. We find that analysts must perform repetitive tasks (e.g., examine numerous variables), yet they may have limited time or lack domain knowledge to explore data. Analysts also often have to consult other stakeholders and oscillate between exploration and other tasks, such as acquiring and wrangling additional data. Based on these observations, we identify design opportunities for exploratory analysis tools, such as augmenting exploration with automation and guidance.

研究动机与目标

  • 在实践中澄清探索性数据分析(EDA)的目标,包括轮廓分析和发现。
  • 了解分析上下文、任务和协作如何影响EDA工作流程。
  • 识别与EDA相关的数据获取、清洗、探索、建模和报告等方面的常见挑战。
  • 描述分析师如何分配时间和资源,以及探索在何时结束。
  • 提出用于支持自动化、引导和溯源的EDA工具设计机会。

提出的方法

  • 对横跨学术界和产业界的18位经验丰富的分析师进行半结构化访谈。
  • 对访谈记录进行迭代编码,以识别主题并以代表性引用支持结果。
  • 描述分析项目、探索目标、高层次任务、背景和挑战。
  • 修订现有数据分析模型,以将探索作为核心活动纳入其中。
  • 分析与探索互动的数据获取与数据整理任务。
  • 综合面向探索的工具的设计含义。

实验结果

研究问题

  • RQ1EDA中的常见分析目标是什么,轮廓分析和发现如何在实践中体现?
  • RQ2分析上下文和任务结构如何塑造EDA过程及其挑战?
  • RQ3在EDA过程中,数据获取、整合、探索与协作方面反复出现的挑战是什么?
  • RQ4分析师如何决定何时结束探索,以及他们如何自动化重复的探索任务?
  • RQ5哪些工具设计机会可以缓解探索性数据分析的挑战?

主要发现

  • 所有分析师都进行轮廓分析,以了解数据内容并评估质量,而发现通常在开放式分析中发生。
  • EDA任务通常是一个迭代循环,耦合数据获取、数据整理、探索、建模和报告,探索往往在建模之前,但并非总是。
  • 分析师在选择应探索的变量、处理重复任务、处理大规模和多源数据集以及确定何时结束探索方面面临挑战。
  • 领域与运营知识、利益相关者的意见以及协作会影响探索结果,以及对各种工具和语言的使用。
  • 需要探索工具来自动化例行任务、引导分析实践、支持数据整理,并维护分析历史和溯源。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。