QUICK REVIEW

[논문 리뷰] Can You Trust Your Model's Uncertainty? Evaluating Predictive Uncertainty Under Dataset Shift

Yaniv Ovadia, Emily Fertig|arXiv (Cornell University)|2019. 06. 06.

Adversarial Robustness in Machine Learning참고 문헌 57인용 수 651

한 줄 요약

본 논문은 데이터셋 분포 변화(dataset shift) 하에서 다수의 불확실성 정량화 방법을 벤치마크하고, i.i.d. 데이터에서의 보정이 변화 하에서 종종 실패하며, 딥 앙상블이 일반적으로 가장 강건한 불확실성 추정치를 제공한다.

ABSTRACT

Modern machine learning methods including deep learning have achieved great success in predictive accuracy for supervised learning tasks, but may still fall short in giving useful estimates of their predictive {\em uncertainty}. Quantifying uncertainty is especially critical in real-world settings, which often involve input distributions that are shifted from the training distribution due to a variety of factors including sample bias and non-stationarity. In such settings, well calibrated uncertainty estimates convey information about when a model's output should (or should not) be trusted. Many probabilistic deep learning methods, including Bayesian-and non-Bayesian methods, have been proposed in the literature for quantifying predictive uncertainty, but to our knowledge there has not previously been a rigorous large-scale empirical comparison of these methods under dataset shift. We present a large-scale benchmark of existing state-of-the-art methods on classification problems and investigate the effect of dataset shift on accuracy and calibration. We find that traditional post-hoc calibration does indeed fall short, as do several other previous methods. However, some methods that marginalize over models give surprisingly strong results across a broad spectrum of tasks.

연구 동기 및 목표

분포 변화(distributional shift) 아래에서 i.i.d. 설정을 넘어 예측 불확실성의 견고한 평가를 촉진한다.
다양한 모달리티(이미지, 텍스트, 범주형 데이터)에 대해 확장 가능한 불확실성 방법의 벤치마크를 수행한다.
보정과 정확도가 변화에 따라 어떻게 공변하는지 평가하고, 변화가 커질 때 신뢰할 수 있는 것으로 남는 방법을 식별한다.
이상적으로는 분포 이동에 대한 견고한 평가를 통해 시프트 하에서도 신뢰할 수 있는 방법을 파악한다.
다양한 모달리티 및 데이터 조건에서 확장 가능한 불확실성 방법의 벤치마크를 수행한다.

제안 방법

x에서의 조건부 분포 p(y|x)를 모형화하는 방법과 결합 분포를 모형화하거나 OOD 구성 요소를 포함하는 방법을 비교하고, 대규모 데이터셋으로의 확장성을 중점적으로 다룬다.
Vanilla, Temperature Scaling, Dropout, Ensemble, 확률적 변분 추론(SVI), 마지막 층 변형(LL-SVI, LL-Dropout) 및 관련 접근법을 평가한다.
MNIST, CIFAR-10, ImageNet, 20 Newsgroups 텍스트, 그리고 Criteo 광고 클릭 데이터 등 다양한 데이터셋을 사용한다.
정확도, negative log-likelihood, Brier score, expected calibration error (ECE), 그리고 predictive entropy와 같은 지표로 성능을 평가한다.
이동된 데이터(shifted data)와 완전히 OOD(out-of-distribution) 데이터 모두를 검토하여 보정 및 불확실성 동작을 관찰한다.

실험 결과

연구 질문

RQ1데이터셋 시프트 하에서 다양한 방법들의 불확실성 추정치의 신뢰도는 어느 정도인가?
RQ2i.i.d. 설정에서의 보정이 데이터셋 시프트 하에서의 보정으로 이어지는가?
RQ3데이터셋 시프트 하에서 방법과 모달리티에 걸쳐 불확실성과 정확도는 어떻게 함께 변화하는가?
RQ4작업 전반에 걸쳐 시프트 하에서도 일관되게 성능이 좋은 방법이 있는가?
RQ5시프트 하에서 불확실성 인지 모델을 배치하기 위한 실용적 권고사항은 무엇인가?

주요 결과

대부분의 방법에서 불확실성 품질은 데이터셋 시프트가 커질수록 감소하며, 방법에 관계없이 동일하다.
i.i.d. 데이터에서의 보정이 시프트 하거나 OOD 설정에서의 보정을 보장하지 않는다.
사후 보정(예: 온도 보정)은 작은 시프트에서 도움이 되나 시프트가 커질수록 에피istemic 불확실성을 모형화하는 방법에 의해 앞지른다.
딥 앙상블은 메트릭과 모달리티 전반에서 일관되게 최상위 성능을 보이며, 특히 큰 시프트에서 그렇다.
마지막 층 드롭아웃 변형과 SVI는 혼재된 결과를 보이며 대규모 데이터셋에서 저조할 수 있지만, SVI는 더 단순한 데이터셋에서 강력할 수 있다.
앙상블 방법은 비교적 작은 앙상블 크기(예: 다섯 개 모델)로도 강력한 성능을 달성할 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.