Skip to main content
QUICK REVIEW

[논문 리뷰] A Critical Field Guide for Working with Machine Learning Datasets

Sarah Ciston, Mike Ananny|ArXiv.org|2025. 01. 26.
Big Data Technologies and Applications인용 수 5
한 줄 요약

본 논문은 ML 데이터셋의 수명 주기 전반에 걸친 양심적 데이터셋 관리에 대한 실용적인 지침을 제공하고, 비판적 인공지능 이론과 응용 데이터 과학 개념을 결합하여 연구자, 기자, 예술가, 개발자가 데이터를 보다 책임감 있게 다룰 수 있도록 돕는다.

ABSTRACT

Machine learning datasets are powerful but unwieldy. Despite the fact that large datasets commonly contain problematic material--whether from a technical, legal, or ethical perspective--datasets are valuable resources when handled carefully and critically. A Critical Field Guide for Working with Machine Learning Datasets suggests practical guidance for conscientious dataset stewardship. It offers questions, suggestions, strategies, and resources for working with existing machine learning datasets at every phase of their lifecycle. It combines critical AI theories and applied data science concepts, explained in accessible language. Equipped with this understanding, students, journalists, artists, researchers, and developers can be more capable of avoiding the problems unique to datasets. They can also construct more reliable, robust solutions, or even explore new ways of thinking with machine learning datasets that are more critical and conscientious.

연구 동기 및 목표

  • 대규모 데이터세트에서의 기술적, 법적, 윤리적 문제로 인해 기계학습 데이터셋에 대한 양심적 관리의 필요성을 고취한다.
  • 데이터셋의 전 생애 주기 단계에서 작업하기 위한 실용적인 지침, 질문, 전략 및 리소스를 제시한다.
  • 접근 가능한 언어로 비판적 AI 이론과 적용 데이터 과학 개념을 연결하여 다양한 이해관계자에게 역량을 부여한다.

제안 방법

  • 생애 주기 전반에 걸친 데이터셋 작업에 대한 체계적인 질문, 제안 및 전략 집합을 제공한다.
  • 데이터셋에 고유한 일반적인 문제를 피하는 데 초점을 둔 리소스와 실용적 지침을 제공한다.
  • 비판적 AI 이론을 적용 데이터 과학 개념과 접근 가능한 언어로 통합하여 폭넓은 대중을 대상으로 한다.

실험 결과

연구 질문

  • RQ1ML 데이터 생애주기 전반에서 양심적 데이터셋 관리에 방향을 제시하는 실용적인 질문과 전략은 무엇인가?
  • RQ2다양한 이해관계자가 ML 파이프라인의 일반적인 데이터 관련 문제를 피하는 데 도움이 되는 리소스와 접근 방식은 무엇인가?
  • RQ3비기술적 배경의 데이터 작업자를 위해 비판적 AI 이론을 접근 가능한 지침으로 어떻게 번역할 수 있는가?
  • RQ4가이드가 ML 데이터의 신뢰성, 견고성 및 윤리적 고려사항을 어떻게 향상시킬 수 있는가?

주요 결과

  • 양심적 데이터셋 관리에 대한 실용적 지침, 질문, 전략 및 리소스를 제공한다.
  • 비판적 AI 이론을 적용 데이터 과학 개념과 접근 가능한 언어로 종합한다.
  • 학생, 기자, 예술가, 연구자, 개발자가 데이터세트의 고유한 문제를 피하고 더 신뢰할 수 있고 견고한 솔루션을 구축하도록 돕는 것을 목표로 한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.