QUICK REVIEW

[논문 리뷰] Whose Ground Truth? Accounting for Individual and Collective Identities Underlying Dataset Annotation

Emily Denton, Mark Díaz|arXiv (Cornell University)|2021. 12. 08.

Mobile Crowdsensing and Crowdsourcing인용 수 24

한 줄 요약

이 논문은 기계학습에서 데이터셋 애너테이터의 신원—개별적인 삶의 경험과 집단적인 사회적·민족적 배경—이 데이터셋 애너테이션을 중대하게 형성하며, 이로 인해 모델의 공정성과 사회적 영향에 숨겨진 편향이 발생함을 주장한다. 이는 데이터셋 개발자가 애너테이터의 주관성을 윤리적으로 반영하기 위해 의도적인 풀 선택, 공정한 플랫폼 선택, 이견을 고려한 데이터 집계, 철저한 문서화를 통해 프레임워크를 제안한다.

ABSTRACT

Human annotations play a crucial role in machine learning (ML) research and development. However, the ethical considerations around the processes and decisions that go into building ML datasets has not received nearly enough attention. In this paper, we survey an array of literature that provides insights into ethical considerations around crowdsourced dataset annotation. We synthesize these insights, and lay out the challenges in this space along two layers: (1) who the annotator is, and how the annotators' lived experiences can impact their annotations, and (2) the relationship between the annotators and the crowdsourcing platforms and what that relationship affords them. Finally, we put forth a concrete set of recommendations and considerations for dataset developers at various stages of the ML data pipeline: task formulation, selection of annotators, platform and infrastructure choices, dataset analysis and evaluation, and dataset documentation and release.

연구 동기 및 목표

크라우드소싱 기반 데이터셋 애너테이션의 윤리적 소홀, 특히 애너테이터의 신원과 삶의 경험에 대한 무시를 다루기 위해.
애너테이터의 주관성과 사회적·민족적 배경의 편향이 기계학습 데이터셋에 어떻게 편향을 심어줄 수 있는지 강조하기 위해.
데이터 풀 전반에서 데이터셋 개발자가 책임감 있고 대표성을 갖춘 접근을 할 수 있도록 실질적인 권고안을 제공하기 위해.
단일 '진실'의 신화를 도전하기 위해 이견을 다양한 시각의 신호로 강조하기 위해.
데이터셋의 해석 가능성과 공정성을 향상시키기 위해 애너테이터의 민족적 배경과 개별 애너테이션을 투명하게 문서화할 것을 주장하기 위해.

제안 방법

신원, 권력 구조, 노동 조건에 중점을 두어 크라우드소싱 데이터 애너테이션의 윤리적 과제에 관한 기존 문헌을 조사하기 위해.
사회적 신원, 삶의 경험, 노동 조건에 의해 영향을 받는 애너테이터의 주관성이 레이블링 결과에 어떻게 영향을 주는지 분석하기 위해.
작업 설정, 애너테이터 선택, 플랫폼 선택, 데이터 집계, 문서화 단계를 포함한 데이터셋 개발을 위한 파이프라인 기반 프레임워크를 제안하기 위해.
소수 집단의 시각을 지우지 않기 위해 데이터셋에 개별 애너테이터의 응답과 이견 지표를 포함시키는 것을 권고하기 위해.
공정한 보상 기준과 애너테이터 피드백 메커니즘을 고려해 플랫폼을 선택함으로써 작업 품질과 노동자 자율성을 향상시키기 위해.
애너테이터 민족적 배경과 설계 결정보를 포함한 표준화된 데이터셋 문서화 프레임워크의 도입을 촉진하여 투명성과 책임성을 확보하기 위해.

실험 결과

연구 질문

RQ1주관적인 작업, 예를 들어 혐오 발언이나 감성 탐지에서 개별 애너테이터의 삶의 경험과 사회·문화적 배경은 그들의 레이블링 결정에 어떻게 영향을 미치는가?
RQ2크라우드소싱 시스템 내의 권력의 비대칭성과 플랫폼 설계는 데이터셋 애너테이션의 품질과 대표성에 어떤 방식으로 영향을 미치는가?
RQ3여러 애너테이터의 레이블을 단일 '진실'로 집계하는 것이 얼마나 문제적인가, 그리고 이견은 어떻게 의미 있는 신호로 유지될 수 있는가?
RQ4데이터셋 개발자가 후속 AI 시스템에 영향을 받는 공동체의 대표성을 확보하기 위해 윤리적으로 애너테이터 풀을 선택할 수 있는 방법은 무엇인가?
RQ5애너테이터의 신원과 노동 조건에 대해 특히 문서화 관행은 어떻게 데이터셋 개발의 투명성과 책임성을 향상시킬 수 있는가?

주요 결과

애너테이터의 주관성은 결함이 아니라 주관적 작업의 특성이다. 애너테이터 간의 이견은 종종 오류가 아니라 유효하고 맥락에 의존하는 해석을 반영한다.
크라우드소싱 플랫폼은 종종 노동자를 상호 교체 가능한 것으로 간주하여, 특히 소수자 집단의 삶의 경험과 전문 지식의 가치를 가림으로써 문제를 일으킨다.
애너테이터 풀의 민족적 배경 편향—예를 들어 미국 크라우드소싱에서 여성의 과잉 표현—는 의도적인 선택과 공정한 보상이 이루어지지 않을 경우 구조적 불평등을 악화시킬 수 있다.
다수결 기반의 레이블 집계는 소수 집단의 시각을 간과하고 유의미한 뉘앙스를 손실하게 하며, 특히 이견이 유효한 문화적 또는 맥락적 차이를 반영할 경우 더욱 심각한 문제가 된다.
개별 애너테이터의 응답과 이견 지표를 데이터셋에 포함시키면 모델의 설명 가능성을 향상시키고, 검토되지 않은 편향을 심어넣을 위험을 줄일 수 있다.
애너테이터 민족적 배경과 플랫폼 정책을 포함한 철저한 문서화는 책임감 있는 데이터셋 배포와 AI 개발의 투명성과 책임성 확보에 필수적이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.