QUICK REVIEW

[논문 리뷰] Studying Up Machine Learning Data: Why Talk About Bias When We Mean Power?

Milagros Miceli, Julian Posada|arXiv (Cornell University)|2021. 09. 16.

Ethics and Social Impacts of AI참고 문헌 77인용 수 26

한 줄 요약

논문은 편향 완화에서 데이터 생성을 포함한 데이터 생산의 맥락, 노동, 조직적 맥락을 살펴보는 힘 인식 접근으로 ML 데이터 연구를 전환하고, 데이터 품질, 데이터 작업, 데이터 문서화 관행을 확장할 것을 제안한다.

ABSTRACT

Research in machine learning (ML) has primarily argued that models trained on incomplete or biased datasets can lead to discriminatory outputs. In this commentary, we propose moving the research focus beyond bias-oriented framings by adopting a power-aware perspective to "study up" ML datasets. This means accounting for historical inequities, labor conditions, and epistemological standpoints inscribed in data. We draw on HCI and CSCW work to support our argument, critically analyze previous research, and point at two co-existing lines of work within our community -- one bias-oriented, the other power-aware. This way, we highlight the need for dialogue and cooperation in three areas: data quality, data work, and data documentation. In the first area, we argue that reducing societal problems to "bias" misses the context-based nature of data. In the second one, we highlight the corporate forces and market imperatives involved in the labor of data workers that subsequently shape ML datasets. Finally, we propose expanding current transparency-oriented efforts in dataset documentation to reflect the social contexts of data design and production.

연구 동기 및 목표

ML 데이터 생산에서 편향 중심의 시도가 권력 역학을 놓친다고 주장한다.
데이터 품질, 데이터 작업, 데이터 문서화를 연구하기 위한 힘 인식 렌즈를 옹호한다.
노동 조건과 조직 구조가 데이터세트와 결과를 어떻게 형성하는지 강조한다.
CS, 사회학, 인류학, 경제학 간의 학제 간 대화를 촉구하여 상향식 ML 데이터 연구를 추진한다.

제안 방법

편향 중심의 ML 데이터 문헌을 비판적으로 분석하고 HCI/CSCW의 힘 인식 관점과 대비한다.
데이터 작업 관행과 문서화 프레임워크의 예를 통해 힘의 비대칭이 데이터세트를 어떻게 형성하는지 보여준다.
ML 데이터를 상향 연구하기 위한 세 가지 축의 의제를 제안한다(데이터 품질, 데이터 작업, 데이터 문서화).
학제 간 개념(studying up, heteromation)을 활용하여 데이터 편향을 더 넓은 권력 관계의 증상으로 재구성한다.

실험 결과

연구 질문

RQ1조직 내의 권력 비대칭과 노동 관행이 ML 데이터 생산 및 데이터세트에 어떤 영향을 미치는가?
RQ2데이터세트 문서화를 어떤 방식으로 확장하여 단순한 편향 완화 이상으로 생산 맥락과 권력 역학을 드러낼 수 있을까?
RQ3데이터 작업자의 조건과 플랫폼 거버넌스가 데이터 품질과 결과적인 ML 시스템에 어떤 영향을 미치는가?
RQ4권력 인식을 반영한 ML 데이터 연구를 발전시킬 수 있는 학제 간 방법과 협력은 무엇인가?

주요 결과

편향 프레이밍은 데이터세트에 내재된 권력 역학과 정치적 작업을 가린다.
데이터 작업자의 노동 조건과 조직 구조가 데이터 품질 및 데이터세트 결과를 의미 있게 형성한다.
문서화 프레임워크는 데이터세트 구성뿐만 아니라 생산 맥락과 권력 관계를 포함하도록 확장될 수 있다.
권력 인식 분석은 왜 편향 제거된 데이터가 강력한 행위자에 의해 통제될 때 여전히 불공정한 결과를 낳을 수 있는지 드러낼 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.