[논문 리뷰] Bringing the People Back In: Contesting Benchmark Machine Learning Datasets
이 논문은 벤치마크ML 데이터셋을 인프라적 산물로서 연구하기 위한 계보학적 연구 프로그램을 제안하며, 데이터셋 구성 뒤의 역사, 가치관, 노동을 드러내고 단순한 투명성보다 경쟁 가능성을 촉진하는 것을 목표로 한다.
In response to algorithmic unfairness embedded in sociotechnical systems, significant attention has been focused on the contents of machine learning datasets which have revealed biases towards white, cisgender, male, and Western data subjects. In contrast, comparatively less attention has been paid to the histories, values, and norms embedded in such datasets. In this work, we outline a research program - a genealogy of machine learning data - for investigating how and why these datasets have been created, what and whose values influence the choices of data to collect, the contextual and contingent conditions of their creation. We describe the ways in which benchmark datasets in machine learning operate as infrastructure and pose four research questions for these datasets. This interrogation forces us to "bring the people back in" by aiding us in understanding the labor embedded in dataset construction, and thereby presenting new avenues of contestation for other researchers encountering the data.
연구 동기 및 목표
- 벤치마크 ML 데이터셋이 어떻게 만들어지는지와 데이터 수집에 영향을 미치는 가치가 무엇인지를 연구하기 위해 계보학적 방법을 동기 부여한다.
- 데이터셋을 연구 의제, 벤치마크, 산업 관행을 형성하는 인프라로 규정한다.
- 데이터 관행을 비자연화하기 위해 인프라 연구의 어휘와 분석적 렌즈를 도입한다.
- 벤치마크 데이터셋을 둘러싼 동기, 역사, 권위 및 현재 관행을 이해하기 위한 4부분 연구 프로그램을 개략한다.
제안 방법
- 미셸 푸코의 계보학을 채택하여 데이터셋 관행의 역사적 형성 및 변화를 추적한다.
- 데이터 생성에 숨어 있는 노동과 맥락적 요인을 드러내기 위해 인프라 구조 반전을 활용하여
- 데이터 생성에 숨어 있는 노동과 맥락적 요인을 드러낸다.
- 데이터셋과 벤치마크를 ML 연구와 산업적 배치를 뒷받침하는 인프라로 간주한다.
- 데이터셋 문서화 및 관련 커뮤니케이션의 텍스트 분석을 적용하여 동기와 규범을 밝혀낸다.
- 주요 ML 허브에서 데이터 작업 관행을 연구하기 위한 민족지학적, 역사적 및 다지역적 연구를 제안한다.
실험 결과
연구 질문
- RQ1데이터셋 개발자들은 데이터셋 작성 및 문서화에 포함된 결정들을 어떻게 설명하고 동기를 부여하는가?
- RQ2머신러닝에서 벤치마크 데이터셋의 생성 역사와 조건적 상황은 무엇인가?
- RQ3벤치마크 데이터셋은 어떻게 권위를 얻으며, 이 권위가 연구 관행과 규범을 어떻게 형성하는가?
- RQ4머신러닝에서 데이터 수집, 선별, 주석화를 구성하는 현재의 작업 관행, 규범 및 일상은 무엇인가?
주요 결과
- 인프라스트럭처 연구의 새로운 어휘와 개념을 도입하여 데이터를 힘이 실린 인프라로 규정하고 경쟁 가능성을 촉진한다.
- 명시적 질문과 방법을 갖춘 기계 학습 데이터의 새로운 계보를 연구 프로그램으로 제시한다.
- 데이터 파이프라인 제어를 위해서는 데이터셋 생성에 수반되는 역사적 우연성, 권력 관계, 노동 등을 검토할 필요가 있다고 주장한다.
- 자기성찰적 분석을 지원하기 위해 목표, 수집 방법, 선별 및 분류를 문서화하는 데이터 공개 관행을 옹호한다.
- 공정성의 유일한 해결책으로 데이터 양을 넘어서는 것을 강조하며, 약탈적 포함 및 데이터 노동 착취의 위험을 지적한다.
- 주요 ML 허브에서 현장 다지역 민족지학을 제안하여 현재의 데이터 관행과 규범적 루틴을 밝힌다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.