[논문 리뷰] Data and its (dis)contents: A survey of dataset development and use in machine learning research
이 논문은 기계학습 연구에서 데이터셋의 역할을 비판적으로 검토하며, 현재의 데이터 수집, 주석 처리 및 벤치마크 설정 방식이 편향, 무의미한 상관관계, 윤리적 문제를 악화시킨다고 주장한다. 연구는 규모와 성능 지표보다는 대표성, 투명성, 데이터 주체에 대한 존중을 우선시하는 더 신중하고 맥락을 고려한, 윤리적인 데이터셋 개발로의 패러다임 전환을 주장한다.
Datasets have played a foundational role in the advancement of machine learning research. They form the basis for the models we design and deploy, as well as our primary medium for benchmarking and evaluation. Furthermore, the ways in which we collect, construct and share these datasets inform the kinds of problems the field pursues and the methods explored in algorithm development. However, recent work from a breadth of perspectives has revealed the limitations of predominant practices in dataset collection and use. In this paper, we survey the many concerns raised about the way we collect and use data in machine learning and advocate that a more cautious and thorough understanding of data is necessary to address several of the practical and ethical issues of the field.
연구 동기 및 목표
- 기계학습 연구의 타당성과 윤리성에 해를 끼치는 데이터셋 설계 및 사용의 체계적 결함을 특정하고 분석하는 것.
- 특히 웹 스크래핑과 커뮤니티 작업을 통한 데이터 수집 방식이 인간의 노동, 편향, 맥락적 의존성을 은폐하는 방식으로 작용함을 부각하는 것.
- 연구 진전의 동력으로서의 벤치마크 데이터셋에 대한 과도한 의존이 일반화된 성능을 우선시하면서도 실제 적용 가능성과 공정성에 빛을 발하지 못하는 문제를 비판하는 것.
- 맥락 기반, 윤리적으로 확보된, 투명하게 문서화된 데이터셋을 중심으로 기계학습 연구의 문화적 전환을 주장하는 것.
- 공정하고 책임감 있는 AI 개발을 지원하기 위해 벤치마크를 넘어서는 더 넓은 평가 프레임워크의 필요성을 강조하는 것.
제안 방법
- 자연어 처리 및 컴퓨터 비전 분야에서 데이터셋 관련 문제에 관한 최근 문헌을 종합적으로 조사하는 것.
- 대표성 편향, 무의미한 상관관계, 잘못된 작업 프레임워킹, 열악한 문서화 및 주석 처리 관행의 네 가지 주제로 비판을 분류하는 것.
- 문제를 일으킨 데이터셋 사례 연구(예: ImageNet, OntoNotes, 독성 데이터셋)를 분석하여 데이터 구성의 체계적 문제를 설명하는 것.
- 적대적 데이터셋과 데이터 증강과 같은 기술적 해결책을 평가하면서도 근본 원인을 해결하지 못하는 한계를 비판하는 것.
- 데이터 재사용, 법적 리스크, 기계학습 연구에서의 데이터 관리 관행에 대한 더 넓은 제도적 및 문화적 비판을 조사하는 것.
- 규모와 랭킹 성과보다 맥락, 동의, 다학제적 협업을 우선시하는 연구 문화의 정착을 주장하는 것.
실험 결과
연구 질문
- RQ1기계학습 데이터셋의 대표성 편향이 사회적 불평등을 어떻게 반영하고 강화하는가?
- RQ2벤치마크 데이터셋 내의 무의미한 상관관계가 모델이 의미 있는 능력을 습득하지 않고도 작업을 '게임'할 수 있도록 하는 정도는 어느 정도인가?
- RQ3기계학습 연구에서 현재의 벤치마크 중심 문화가 과학적 진전과 윤리적인 구현에 있어 왜 문제가 되는가?
- RQ4동의 없이 대규모 웹 스크래핑 및 데이터 재사용과 관련된 윤리적 및 법적 리스크는 무엇인가?
- RQ5맥락, 투명성, 데이터 주체에 대한 존중을 우선시하는 방식으로 데이터셋 개발을 어떻게 개선할 수 있는가?
주요 결과
- ImageNet과 OntoNotes와 같은 유명한 데이터셋은 어두운 피부색의 개인과 여성성 어휘를 포함한 소수자 사회적·민족적 집단의 현저한 부재를 보이고 있다.
- 데이터셋은 시각 및 언어 데이터에서 직업과 성별 간의 성별 기반 연관성과 같은 해로운 스테레오타입을 끊임없이 반영하여 편향된 모델 행동을 유도한다.
- ImageNet 데이터셋은 수백만 개의 영상에 인종적 모욕어 및 비하 표현이 레이블링되어 있어 부분적으로 데이터셋이 제거된 바 있다.
- 많은 벤치마크 데이터셋은 무의미한 상관관계(예: '게이'라는 단어가 포함된 텍스트가 독성으로 레이블링됨)로 인해 게임이 가능하여 모델의 일반화 능력에 대한 주장이 흔들린다.
- 현재의 데이터 수집 방식은 데이터 생성 과정에서의 인간 노동, 맥락, 주관성의 존재를 은폐하여 투명성과 책임감의 결여를 초래한다.
- 후속 조치로 시도된 해결책들—예를 들어 적대적 데이터 생성 또는 필터링—은 대표성, 맥락, 윤리적 출처의 근본적 문제를 해결하지 못한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.