[논문 리뷰] Lessons from Archives: Strategies for Collecting Sociocultural Data in Machine Learning
이 논문은 아카이브의 관행을 사회문화 데이터로 도입하여 ML 데이터-수집 전문화를 형성하는 것을 주장하며, 동의, 포용성, 권력, 투명성, 윤리 및 프라이버시를 강조하고 개입적 수집 및 제도적 구조를 제시합니다.
A growing body of work shows that many problems in fairness, accountability, transparency, and ethics in machine learning systems are rooted in decisions surrounding the data collection and annotation process. In spite of its fundamental nature however, data collection remains an overlooked part of the machine learning (ML) pipeline. In this paper, we argue that a new specialization should be formed within ML that is focused on methodologies for data collection and annotation: efforts that require institutional frameworks and procedures. Specifically for sociocultural data, parallels can be drawn from archives and libraries. Archives are the longest standing communal effort to gather human information and archive scholars have already developed the language and procedures to address and discuss many challenges pertaining to data collection such as consent, power, inclusivity, transparency, and ethics & privacy. We discuss these five key approaches in document collection practices in archives that can inform data collection in sociocultural ML. By showing data collection practices from another field, we encourage ML research to be more cognizant and systematic in data collection and draw from interdisciplinary expertise.
연구 동기 및 목표
- 데이터 수집을 사회적 영향이 있는 기본 ML 문제로 다루어야 할 필요성을 자극한다.
- ML 데이터 수집 및 주석 관행을 개선하기 위해 아카이브 및 도서관 과학의 교훈을 도입할 것을 제안한다.
- 데이터 수집을 안내하기 위한 제도적·절차적 구조(사명 선언문, 윤리 강령, 문서화)를 식별한다.
- 역사적 편향과 표현 편향을 완화하기 위한 개입적 데이터 수집을 옹호한다.
- ML에서 이러한 관행을 구현하기 위한 구체적 메커니즘(컨소시엄, 커뮤니티 아카이브, 참여적 접근)을 제시한다.
제안 방법
- 아카이브 데이터 수집 관행과 ML 데이터 수집 관행을 비교하여 격차와 기회를 식별한다.
- 데이터의 역사적·표현적 편향을 해결하기 위한 개입적 데이터 수집의 필요성을 주장한다.
- 아카이브의 개념(미션 선언문, 문서화 표준, 감정 평가 프로세스)을 ML 데이터 거버넌스(Datasheets for Datasets, 투명성 노력)에 매핑한다.
- 데이터 수집을 민주화하고 자원을 공유하기 위한 조직 모델(데이터 컨소시엄, 커뮤니티 아카이브, 참여적 아카이브)을 제안한다.
- ML 데이터 세트 및 프로세스에서 동의, 포용성, 권력, 투명성, 윤리를 구현하기 위한 가이드라인을 제공한다.
실험 결과
연구 질문
- RQ1아카이브의 데이터 수집 관행이 머신러닝의 데이터 거버넌스에 어떤 정보를 제공할 수 있는가?
- RQ2ML 데이터 세트의 역사적 및 표현적 편향을 줄일 수 있는 어떤 개입적 데이터 수집 전략이 있는가?
- RQ3ML 프로젝트가 아카이브에 준하는 사명 선언문, 문서화, 윤리적 감독을 어떻게 구현할 수 있는가?
- RQ4데이터를 책임 있게 수집하기 위해 어떤 조직 구조(컨소시엄, 커뮤니티 아카이브, 행동 강령)가 ML에서 실현 가능한가?
주요 결과
- 아카이브는 데이터 수집 목표를 정의하고 포용성을 촉진하기 위해 미션 선언문을 사용한다.
- 아카이브는 다층 감독과 문서화된 평가에 의존하여 데이터 수집을 규제하며, 이는 ML의 투명성에 정보를 제공할 수 있다.
- 커뮤니티/참여형 아카이브는 소외된 집단이 자신들의 표현과 데이터 접근 프로토콜을 정의하도록 한다.
- 데이터 컨소시엄과 공유 프레임워크는 ML 데이터 수집의 비용, 노동, 공정성 문제를 다룰 수 있다.
- 아카이브의 윤리와 프라이버시는 행동 강령과 문서화된 절차를 통해 집행되며, ML 거버넌스와 준수의 모델을 제공한다.
- 개입적 데이터 수집은 ML 모델링 이전의 역사적 및 표현적 편향을 완화하는 데 도움을 준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.