Skip to main content
QUICK REVIEW

[论文解读] A Critical Field Guide for Working with Machine Learning Datasets

Sarah Ciston, Mike Ananny|ArXiv.org|Jan 26, 2025
Big Data Technologies and Applications被引用 5
一句话总结

该论文为负责任的数据集管理提供实用指导,覆盖 ML 数据集生命周期,结合批判性 AI 理论与应用数据科学概念,帮助研究人员、记者、艺术家和开发者更负责任地使用数据。

ABSTRACT

Machine learning datasets are powerful but unwieldy. Despite the fact that large datasets commonly contain problematic material--whether from a technical, legal, or ethical perspective--datasets are valuable resources when handled carefully and critically. A Critical Field Guide for Working with Machine Learning Datasets suggests practical guidance for conscientious dataset stewardship. It offers questions, suggestions, strategies, and resources for working with existing machine learning datasets at every phase of their lifecycle. It combines critical AI theories and applied data science concepts, explained in accessible language. Equipped with this understanding, students, journalists, artists, researchers, and developers can be more capable of avoiding the problems unique to datasets. They can also construct more reliable, robust solutions, or even explore new ways of thinking with machine learning datasets that are more critical and conscientious.

研究动机与目标

  • 由于大规模数据集的技术、法律与伦理问题,推动对机器学习数据集进行负责任治理的必要性。
  • 在整个生命周期阶段提供与数据集工作相关的实用指导、问题、策略和资源。
  • 用易于理解的语言将批判性 AI 理论与应用数据科学概念结合起来,为各类利益相关者赋能。

提出的方法

  • 提供一整套结构化的问题、建议和策略,覆盖数据集在生命周期各阶段的工作。
  • 提供资源与实用指南,旨在避免数据集特有的常见问题。
  • 用易于理解的语言将批判性 AI 理论与应用数据科学概念综合起来,面向广泛受众。

实验结果

研究问题

  • RQ1在 ML 数据生命周期中,有哪些实用的问题和策略可以指导对数据集进行负责任的治理?
  • RQ2哪些资源和方法能帮助各类利益相关者避免 ML 流水线中常见的数据相关问题?
  • RQ3如何将批判性 AI 理论转化为面向非技术受众的可理解指导,帮助他们处理数据集?
  • RQ4该指导如何提升 ML 数据集的可靠性、鲁棒性与伦理考量?

主要发现

  • 提供对负责任的数据集治理的实用指导、问题、策略和资源。
  • 以易于理解的语言综合批判性 AI 理论与应用数据科学概念。
  • 旨在使学生、记者、艺术家、研究人员和开发者能够避免数据集特有的问题,并构建更可靠、鲁棒的解决方案。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。