Skip to main content
QUICK REVIEW

[논문 리뷰] WILDS: A Benchmark of in-the-Wild Distribution Shifts

Pang Wei Koh|CaltechAUTHORS (California Institute of Technology)|2020. 12. 14.
AI in cancer detection참고 문헌 393인용 수 286
한 줄 요약

WILDS는 다양한 모달리티에 걸친 10개 실제 세계 분포 변화 데이터셋의 큐레이션 벤치마크를 제시하며, 표준 및 기본 강건성 방법이 분포 외(out-of-distribution) 데이터에서 성능이 저하되는 모습을 문서화하고, 방법 개발을 돕는 오픈 소스 패키지와 리더보드를 제공합니다.

ABSTRACT

Distribution shifts -- where the training distribution differs from the test distribution -- can substantially degrade the accuracy of machine learning (ML) systems deployed in the wild. Despite their ubiquity in the real-world deployments, these distribution shifts are under-represented in the datasets widely used in the ML community today. To address this gap, we present WILDS, a curated benchmark of 10 datasets reflecting a diverse range of distribution shifts that naturally arise in real-world applications, such as shifts across hospitals for tumor identification; across camera traps for wildlife monitoring; and across time and location in satellite imaging and poverty mapping. On each dataset, we show that standard training yields substantially lower out-of-distribution than in-distribution performance. This gap remains even with models trained by existing methods for tackling distribution shifts, underscoring the need for new methods for training models that are more robust to the types of distribution shifts that arise in practice. To facilitate method development, we provide an open-source package that automates dataset loading, contains default model architectures and hyperparameters, and standardizes evaluations. Code and leaderboards are available at https://wilds.stanford.edu.

연구 동기 및 목표

  • 실제 세계의 분포 변화가 ML 모델에 미치는 영향을 동기 부여하고 정량화한다.
  • 다양하고 현실적인 도메인 일반화 및 하위 모집단 변화 벤치마크를 제공한다.
  • 강건성 표준화 진행을 위한 오픈 소스 로딩/평가 패키지와 리더보드를 제공한다.

제안 방법

  • 다양한 모달리티에 걸친 도메인 일반화 및 하위 모집단 변화를 포착하는 10개의 실제 세계 데이터셋을 큐레이션한다.
  • 도메인 주석이 포함된 학습/테스트 분할을 정의하여 도메인 인식 학습이 가능하도록 한다.
  • ID와 OOD 간의 성능 차이를 정량화하기 위해 표준 학습 및 기존의 시프트-강건 베이스라인을 평가한다.
  • 데이터 로딩, 모델 베이스라인, 평가 파이프라인을 자동화하는 오픈 소스 Wilds 패키지를 제공한다.
  • 배포형 리더보드를 공개하여 분포 변화에 대한 강건성을 추적한다.

실험 결과

연구 질문

  • RQ1표준 학습 절차가 도메인 및 하위 모집단 across-real-world 분포 변화에 직면했을 때 얼마나 저하되는가?
  • RQ2도메인 시프트 강건성에 대한 기존 방법들이 WILDS 데이터셋에서 성능 차이를 줄이는가?
  • RQ3도메인 주석을 활용하여 보이지 않는 도메인이나 하위 모집단에서의 강건성을 향상시킬 수 있는가?
  • RQ4다양한 데이터 모달리티와 작업에서 강건성 격차가 어떻게 나타나는가?

주요 결과

  • 모든 데이터셋에서 학습 성능은 분포 외 데이터에서 평가 시에 감소한다.
  • 분포 변화에 대한 베이스라인 방법은 지속적인 격차를 보이며 새로운 강건성 접근의 필요성을 강조한다.
  • 벤치마크는 병원, 카메라 트랩, 위성 영상, 사용자/지역 변형과 같은 도메인을 포함하여 실제 세계의 변화 반영한다.
  • 오픈 소스 패키지가 데이터셋 로딩, 모델, 하이퍼파라미터 및 평가를 표준화하고, 공개 리더보드가 진행 상황을 추적한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.