QUICK REVIEW

[논문 리뷰] Between Subjectivity and Imposition: Power Dynamics in Data Annotation for Computer Vision

Milagros Miceli, Martin Schuessler|arXiv (Cornell University)|2020. 07. 29.

Ethics and Social Impacts of AI참고 문헌 51인용 수 26

한 줄 요약

이 논문은 계층적 구조가 데이터 레이블링에 미치는 영향을 고려하여, 레이블링을 의미 형성 실천으로 프레임하고 있다. 구성주의적 기반 이론을 사용하여, 레이블이 단순한 주관성 이상의 것을 의미하며, 고객과 시장 수요에 의해 수직적으로 부과되며, 중립적이라 자연스럽게 여겨지게 된다는 점을 드러내며, 책임감을 약화시키고 인공지능 데이터 생성 과정에서의 체계적 권력 불균형을 드러낸다.

ABSTRACT

The interpretation of data is fundamental to machine learning. This paper investigates practices of image data annotation as performed in industrial contexts. We define data annotation as a sense-making practice, where annotators assign meaning to data through the use of labels. Previous human-centered investigations have largely focused on annotators subjectivity as a major cause for biased labels. We propose a wider view on this issue: guided by constructivist grounded theory, we conducted several weeks of fieldwork at two annotation companies. We analyzed which structures, power relations, and naturalized impositions shape the interpretation of data. Our results show that the work of annotators is profoundly informed by the interests, values, and priorities of other actors above their station. Arbitrary classifications are vertically imposed on annotators, and through them, on data. This imposition is largely naturalized. Assigning meaning to data is often presented as a technical matter. This paper shows it is, in fact, an exercise of power with multiple implications for individuals and society.

연구 동기 및 목표

산업 현장에서 데이터 레이블링 실천 방식이 어떻게 권력 구조에 의해 형성되는지 조사하기.
레이블링의 중립성에 대한 신화를 도전하기 위해 상향식으로 부과된 분류 방식을 드러내기.
고객, 관리자, 레이블러 간의 계층적 관계가 레이블 생성에 어떻게 영향을 미치는지 조사하기.
데이터셋의 윤리적·기술적 문제들이 개인적 주관성 이상의 체계적 권력 불균형에서 기인한다는 것을 주장하기.
책임감과 투명도를 향상시키기 위해 데이터 작업에서 반성적이고 권력 인식 기반 문서 기록을 주장하기.

제안 방법

두 개의 데이터 레이블링 기업에서 수주간의 민족학적 현장 조사 수행.
레이블러, 관리자, 컴퓨터 비전 전문가 24명과의 반구조화 인터뷰 수행.
구성주의적 기반 이론을 적용하여 데이터 분석을 수행하며, 연구자 자신의 반성성과 맥락 민감한 해석을 강조.
부르디외의 상징적 권력 개념을 사용하여 의미가 레이블링 과정에서 어떻게 부과되고 자연스럽게 여겨지는지 분석.
고객 요구에서 시작해 관리자를 통해 레이블러에게 이르는 레이블링 지침의 흐름을 추적하며, 표준화 및 통제의 지점 식별.
실제 레이블링 프로젝트를 분석하여, 분류 결정에 영향을 미치는 규범적이고 계층적인 영향을 폭 드러내기.

실험 결과

연구 질문

RQ1데이터 레이블러는 산업적 맥락에서 어떻게 영상 데이터를 이해하는가?
RQ2데이터 레이블링의 의미 형성 과정을 형성하는 데 어떤 구조, 기준, 권력 관계가 작용하는가?
RQ3데이터 포인트의 분류를 결정하는 사람은 누구이며, 레이블링 파이프라인의 어느 단계에서 이루어지는가?
RQ4고객과 시장 수요는 어떻게 레이블링 지침으로 번역되며, 이로 인해 레이블 일관성과 윤리에 어떤 영향을 미치는가?
RQ5강요된 분류 방식은 어떻게 자연화되며, 이는 AI 시스템의 책임감에 어떤 영향을 미치는가?

주요 결과

데이터 레이블링은 중립적인 기술적 작업이 아니라 계층적 통제에 의해 형성된 권력이 깃든 의미 형성 과정이다.
레이블링 지침은 윤리적 또는 인지적 고려보다 주로 고객 요구와 시장 최적화에 의해 주도된다.
레이블러들은 상부에서 부과된 분류를 내면화하고 자연스럽게 여겨지며, 객관적이고 필연적인 것으로 인식한다.
레이블의 표준화는 의미적 깊이나 윤리적 민감성보다는 비용 효율성과 출력량을 우선시한다.
다중 계층의 감독과 통제로 책임이 분산되어 피해를 특정 인물에게 추적하기 어려워진다.
강요된 분류의 자연화는 데이터셋에 내재된 정치적·경제적 힘을 가림으로써 책임감과 투명성을 약화시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.