Skip to main content
QUICK REVIEW

[논문 리뷰] Reduced, Reused and Recycled: The Life of a Dataset in Machine Learning Research

Bernard Koch, Emily Denton|arXiv (Cornell University)|2021. 12. 03.
Ethics and Social Impacts of AI인용 수 57
한 줄 요약

이 논문은 ML 벤치마크 데이터셋이 2015–2020 기간 동안 작업 커뮤니티 간에 어떻게 사용되고 재사용되었는지 분석하고, 몇 개 데이터셋에의 집중도 증가와 엘리트 기관의 지배를 보인다.

ABSTRACT

Benchmark datasets play a central role in the organization of machine learning research. They coordinate researchers around shared research problems and serve as a measure of progress towards shared goals. Despite the foundational role of benchmarking practices in this field, relatively little attention has been paid to the dynamics of benchmark dataset use and reuse, within or across machine learning subcommunities. In this paper, we dig into these dynamics. We study how dataset usage patterns differ across machine learning subcommunities and across time from 2015-2020. We find increasing concentration on fewer and fewer datasets within task communities, significant adoption of datasets from other tasks, and concentration across the field on datasets that have been introduced by researchers situated within a small number of elite institutions. Our results have implications for scientific evaluation, AI ethics, and equity/access within the field.

연구 동기 및 목표

  • ML 작업 커뮤니티가 특정 벤치마크 데이터셋에 어떻게 집중하는지 검토합니다.
  • 작업 간 데이터셋의 채택과 작업별 데이터셷 생성 간의 비교를 조사합니다.
  • 가장 지배적인 벤치마크 데이터셋의 기관 기원을 식별하고 이것이 시간에 따라 어떻게 진화하는지 파악합니다.

제안 방법

  • Papers With Code (PWC) 코퍼스를 사용하여 2015–2020 기간 동안 데이터셋 사용 및 기원을 추적합니다.
  • 작업 내 데이터셋 사용 집중도를 측정하기 위해 지니 계수를 계산합니다.
  • 교차-task 데이터셋 전이와 데이터셋 생성을 분석하기 위해 Adoption Proportion(채택 비율)과 Creation Proportion(생성 비율)을 정의합니다.
  • 공변량(작업 규모, 연령, 범주) 및 랜덤 효과를 사용하여 시간에 따른 지니 지수를 모델링하기 위해 베타 회귀를 적용합니다.
  • 필요한 경우 상위 데이터셋 논문을 수동으로 주석 처리하여 기원 작업을 식별합니다.
  • 기관 분석을 위해 dataset-origin 논문을 Microsoft Academic Graph (MAG)와 연결합니다.

실험 결과

연구 질문

  • RQ1RQ1: 기계 학습 작업 커뮤니티가 특정 데이터셋에 얼마나 집중되어 있으며, 시간이 지남에 따라 어떻게 변했나요?
  • RQ2RQ2: 연구자들이 다른 작업의 데이터셋을 차용하는 빈도와 작업별 데이터셋을 새로 만들 때의 빈도는 어떻게 비교되나요?
  • RQ3RQ3: 가장 널리 사용되는 벤치마크 데이터셋을 도입한 기관은 어느 곳이며, 시간이 지남에 따라 어떻게 변했나요?

주요 결과

  • 작업 커뮤니티는 소수의 데이터셋에 대한 집중도가 증가하는 것을 보이며, 2020년까지 중앙값 지니 계수는 0.60에 도달했습니다.
  • 작업 내 다수의 논문은 자신의 작업을 위해 생성된 데이터셋보다 다른 작업을 위해 원래 만들어진 데이터셋을 사용하는 경향이 많습니다.
  • 데이터셋 사용의 절반 이상(더하기 50%)은 2021년 6월 기준으로 단지 열두 기관에 의해 기인하는 것으로 나타나 기관 집중도가 강합니다.
  • 전체 PWC 데이터셋의 데이터셋 사용에 대한 지니 집중도는 최근 몇 년 사이 0.80을 넘어 증가했고, 기관과 데이터셋 간의 불평등이 커지고 있음을 반영합니다.
  • 이미지 생성 및 얼굴 인식 분야에서 가장 많이 사용된 데이터셋은 원래 해당 작업을 위해 설계된 것이 아니었으며, 이는 교차 작업 채택과 잠재적 정렬 문제를 강조합니다.
  • 자연어처리(NLP) 작업은 집중 경향의 일부 완화와 채택/생성 패턴에서 CV 및 Methods 작업과의 차이를 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.