Skip to main content
QUICK REVIEW

[논문 리뷰] Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time

Huaxiu Yao, Caroline Choi|arXiv (Cornell University)|2022. 11. 25.
Machine Learning in Healthcare인용 수 21
한 줄 요약

Wild-Time 벤치마크는 다양한 실제 작업에서 시간적으로 진화하는 분포 변화들을 측정하고 13개 방법을 평가합니다; 결과는 ID에서 OOD로의 큰 감소를 보이고 invariant, 자기지도 학습, 앙상블 방식도 ERM에 비해 일관된 이점을 주지 못합니다.

ABSTRACT

Distribution shift occurs when the test distribution differs from the training distribution, and it can considerably degrade performance of machine learning models deployed in the real world. Temporal shifts -- distribution shifts arising from the passage of time -- often occur gradually and have the additional structure of timestamp metadata. By leveraging timestamp metadata, models can potentially learn from trends in past distribution shifts and extrapolate into the future. While recent works have studied distribution shifts, temporal shifts remain underexplored. To address this gap, we curate Wild-Time, a benchmark of 5 datasets that reflect temporal distribution shifts arising in a variety of real-world applications, including patient prognosis and news classification. On these datasets, we systematically benchmark 13 prior approaches, including methods in domain generalization, continual learning, self-supervised learning, and ensemble learning. We use two evaluation strategies: evaluation with a fixed time split (Eval-Fix) and evaluation with a data stream (Eval-Stream). Eval-Fix, our primary evaluation strategy, aims to provide a simple evaluation protocol, while Eval-Stream is more realistic for certain real-world applications. Under both evaluation strategies, we observe an average performance drop of 20% from in-distribution to out-of-distribution data. Existing methods are unable to close this gap. Code is available at https://wild-time.github.io/.

연구 동기 및 목표

  • 현실 세계 데이터셋을 사용하여 점진적 시간적 분포 변화에 따른 모델의 악화를 평가한다.
  • 타임스탬프가 있는 데이터와 두 가지 평가 프로토콜(Eval-Fix 및 Eval-Stream)을 갖춘 표준 벤치마크를 제공한다.
  • 시간적 강건성에 대한 광범위한 베이스라인(ERM, 지속 학습, 불변 학습, 자기지도 학습, 앙상블)을 평가한다.

제안 방법

  • 시간 변화가 반영된 시각, 헬스케어, NLP 분야의 타임스탬프 데이터 5개 데이터세트를 큐레이션한다.
  • 두 가지 평가 전략 제안: Eval-Fix(고정된 학습-테스트 시점 분할) 및 Eval-Stream(타임스탬프의 데이터 스트림).
  • 슬라이딩 윈도우를 이용해 도메인을 생성하여 시간적 도메인에 맞춰 불변 학습 방법을 적응시킨다.
  • ERM, Fine-tuning, EWC, SI, A-GEM, CORAL-T, IRM-T, GroupDRO-T, LISA, mixup, SimCLR, SwaV, SWA를 포함한 13가지 접근법을 벤치마크한다.
  • 정확도 또는 ROC-AUC를 보고하고 ID 대 OOD 성능을 비교한다.

실험 결과

연구 질문

  • RQ1시간 변화로 인한 다중 도메인에서 ID에서 OOD로의 성능 저하가 얼마나 큰가?
  • RQ2기존의 불변 학습, 지속 학습, 자기지도 학습 또는 앙상블 방법이 표준 ERM보다 시간적 강건성을 향상시키는가?
  • RQ3다른 평가 프로토콜(Eval-Fix vs Eval-Stream)이 시간적 강건성과 방법 효능에 어떤 차이를 보이는가?
  • RQ4타임스탬프 메타데이터를 효과적으로 활용해 비분할 데이터 스트림에서 불변 학습용 시간 도메인을 구축할 수 있는가?

주요 결과

  • 데이터셋 전반에 걸쳐 OOD 성능은 ID 성능을 상당히 하회하며 시간적 분포 변화가 강하게 작용함을 보여준다.
  • 불변 학습 방법(CORAL-T, GroupDRO-T, IRM-T, LISA, mixup)은 Wild-Time 작업에서 거의 ERM보다 우수하지 않다.
  • 점진적 학습 방법은 특정 데이터세트에서 일부 OOD 지표를 향상시키지만 작업 간에 일관되게 개선되지는 않다.
  • 자기지도 학습과 앙상블 방법은 시간적 강건성에서 ERM보다 일관된 이점을 보이지 않는다.
  • Eval-Stream에서의 결과는 Eval-Fix와 대체로 일치하여 지속적인 시간적 강건성 차이를 강조한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.