Skip to main content
QUICK REVIEW

[논문 리뷰] Measuring Calibration in Deep Learning

Jeremy Nixon, Mike Dusenberry|arXiv (Cornell University)|2019. 04. 02.
Adversarial Robustness in Machine Learning참고 문헌 29인용 수 156
한 줄 요약

이 논문은 다중 클래스 분류기의 보정(calibration) 지표를 비판적으로 분석하고, ECE와 같은 일반적인 측정치가 오해를 불러일으킬 수 있음을 보여주며, 대안 지표들(ACE, SCE, GCE)과 모범 사례 권고를 제시한다.

ABSTRACT

Overconfidence and underconfidence in machine learning classifiers is measured by calibration: the degree to which the probabilities predicted for each class match the accuracy of the classifier on that prediction. How one measures calibration remains a challenge: expected calibration error, the most popular metric, has numerous flaws which we outline, and there is no clear empirical understanding of how its choices affect conclusions in practice, and what recommendations there are to counteract its flaws. In this paper, we perform a comprehensive empirical study of choices in calibration measures including measuring all probabilities rather than just the maximum prediction, thresholding probability values, class conditionality, number of bins, bins that are adaptive to the datapoint density, and the norm used to compare accuracies to confidences. To analyze the sensitivity of calibration measures, we study the impact of optimizing directly for each variant with recalibration techniques. Across MNIST, Fashion MNIST, CIFAR-10/100, and ImageNet, we find that conclusions on the rank ordering of recalibration methods is drastically impacted by the choice of calibration measure. We find that conditioning on the class leads to more effective calibration evaluations, and that using the L2 norm rather than the L1 norm improves both optimization for calibration metrics and the rank correlation measuring metric consistency. Adaptive binning schemes lead to more stablity of metric rank ordering when the number of bins vary, and is also recommended. We open source a library for the use of our calibration measures.

연구 동기 및 목표

  • Expected Calibration Error (ECE)의 다중 클래스 환경에서의 한계와 병리 현상을 평가한다.
  • 클래스 조건화, 적응성, 그리고 노름 선택을 다루는 대안 보정 지표를 제안하고 분석한다.
  • 데이터셋 전반에 걸친 보정 평가에서 binning(구간화), 임계값 설정, 재보정의 영향을 연구한다.
  • 강건한 보정 평가를 위한 실용적인 권장사항과 오픈 소스 도구를 제공한다.

제안 방법

  • 다섯 가지 특성(클래스 조건화, 적응성, 최대 확Probability 초점, 노름, 임계값 설정) 전반에 걸친 보정 오차 정의에 대한 형식적 분석.
  • 구성 가능 지표 공간으로서 General Calibration Error (GCE)의 정의와 평가.
  • 보정 구간 전반에 걸쳐 등빈(equal-frequency) binning으로 Adaptive Calibration Error (ACE)를 도입.
  • 클래스 확률별로 구간화하는 다중 클래스 확장의 Static Calibration Error (SCE) 정의.
  • 많은 근처 영 확률들 관리를 위한 임계값 설정에 대한 논의와 보정 추정에 미치는 영향.
  • 메트릭 동작과 재보정 효과를 연구하기 위해 MNIST, Fashion-MNIST, CIFAR-10/100, ImageNet에 대한 실증적 평가.

실험 결과

연구 질문

  • RQ1다중 클래스 설정에서 보정 지표의 선택이 모델 보정에 대한 결론에 어떤 영향을 미치는가?
  • RQ2클래스 조건화된 보정 지표가 집계된 비조건화 지표보다 더 신뢰할 만한 평가를 제공하는가?
  • RQ3적응형 binning, 노름 선택(L1 대 L2), 임계값 설정이 보정 평가 및 방법 순위에 미치는 영향은 무엇인가?
  • RQ4재보정 기술이 데이터셋 간에 다른 보정 지표와 어떻게 상호작용하는가?
  • RQ5보정 평가의 강건성과 비교 가능성을 높이기 위한 실용적인 권고는 무엇인가?

주요 결과

  • ECE는 다중 클래스 환경에서 보정 평가를 왜곡하는 다수의 결함이 있다(최대값이 아닌 확률 무시, 고정된 빈, 그리고 클래스 조건성의 부족).
  • 클래스 조건화된 보정 지표는 클래스 간 비균일한 보정을 드러내고 더 정보에 근거한 평가를 제공한다.
  • 적응형 빈닝(ACE)은 빈의 수가 달라져도 지표 순위가 안정되도록 하며, 실제로 정적 빈닝보다 우수한 성능을 보인다.
  • L2 노름을 사용하면 보정 지표의 최적화와 순위 상관의 일관성이 일반적으로 향상된다.
  • 재보정 방법의 순위는 보정 지표에 따라 극적으로 달라지며 지표에 의존하는 결론을 시사한다.
  • 적응형 보정 방법은 데이터셋과 아키텍처 전반에서 더 강건하고 신뢰할 수 있는 비교를 제공합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.