Skip to main content
QUICK REVIEW

[논문 리뷰] Beyond temperature scaling: Obtaining well-calibrated multiclass probabilities with Dirichlet calibration

Meelis Kull, Miquel Perelló-Nieto|arXiv (Cornell University)|2019. 10. 28.
Machine Learning and Data Classification인용 수 162
한 줄 요약

본 논문은 Dirichlet calibration을 소개한다. 이는 고유의 다항 분류 후 보정 방법으로, Dirichlet 기반 보정 맵을 학습하여 어떤 분류기에도 잘 보정된 다항 분류 확률을 생성하고, 많은 설정에서 temperature scaling보다 우수한 성능을 보인다.

ABSTRACT

Class probabilities predicted by most multiclass classifiers are uncalibrated, often tending towards over-confidence. With neural networks, calibration can be improved by temperature scaling, a method to learn a single corrective multiplicative factor for inputs to the last softmax layer. On non-neural models the existing methods apply binary calibration in a pairwise or one-vs-rest fashion. We propose a natively multiclass calibration method applicable to classifiers from any model class, derived from Dirichlet distributions and generalising the beta calibration method from binary classification. It is easily implemented with neural nets since it is equivalent to log-transforming the uncalibrated probabilities, followed by one linear layer and softmax. Experiments demonstrate improved probabilistic predictions according to multiple measures (confidence-ECE, classwise-ECE, log-loss, Brier score) across a wide range of datasets and classifiers. Parameters of the learned Dirichlet calibration map provide insights to the biases in the uncalibrated model.

연구 동기 및 목표

  • 다항 설정에서의 기본 보정 개념을 명확히 하고 기존 방법의 한계를 강조한다.
  • Dirichlet 분포에 기반한 네이티브 다항 보정 접근법을 소개한다.
  • 보정 맵의 해석 가능성과 구현 가능한 매개화들을 제공한다.
  • 여러 데이터 세트와 지표에 걸쳐 비신경망 및 신경망 모델군을 대상으로 Dirichlet calibration을 평가한다.

제안 방법

  • 각 클래스 j에 대해 P(p̂(X)|Y=j) 를 Dirichlet(α^(j))로 모델링하여 Dirichlet calibration을 제안한다.
  • 베이즈 규칙을 사용하여 µ̂_Dir(q)의 정규화된 보정 함수를 도출하고, 생성형 형태와 두 가지 등가 매개화(선형 형태: μ̂_DirLin(q;W,b) = σ(W ln q + b) 및 정준 형태: μ̂_Dir(q;A,c) = σ(A ln(q/1/k) + ln c))를 제시한다.
  • 세 가지 매개화를 DirGen, DirLin, Dir의 등가성을 증명한다.
  • 확률 단순체上的 해석 포인트와 행렬 A 및 벡터 c가 보정 및 클래스 혼동 경계에 미치는 영향을 분석하여 준해석적 해석을 제공한다.
  • 딥 네트의 보정 시 과적합을 방지하기 위한 Off-Diagonal and Intercept Regularisation(ODIR)을 도입하고, 로그손실 목적 함수에 L = (1/n)∑ logloss(μ̂_DirLin(p̂(xi)); yi) + λ(1/(k(k−1))∑i≠j wij^2) + μ(1/k)∑j bj^2 형태로 추가한다.
  • 표준 프레임워크에서의 간단한 구현(예: 로그 변환 층 뒤에 Dense 층과 소프트맥스) 및 0 확률에 대한 클리핑을 주의점으로 제공한다.

실험 결과

연구 질문

  • RQ1다항 설정에서 native multiclass 보정 맵이 이진/단일 보정 접근법보다 성능이 우수할 수 있는가?
  • RQ2Dirichlet calibration 기반 맵이 다양한 데이터세트와 모델 군에서 온도 스케일링보다 이점이 있는가?
  • RQ3제안된 OD-정규화가 고매개변수 보정이 깊은 네트워크에서 과적합을 방지하는 데 필수적인가?
  • RQ4로그리츠와 확률에서 보정될 때 매트릭스 스케일링과 벡터 스케일링과 Dirichlet calibration 맵의 비교는 어떠한가?
  • RQ5정준 매개화에서 얻을 수 있는 해석적 통찰은 클래스별 바이어스와 혼동 패턴에 대해 무엇을 알려주는가?

주요 결과

  • Dirichlet_L2는 비신경망 모델과 데이터셋 전반에 걸쳐 일반적으로 좋은 성능을 보이며 최상급 보정자들 사이에 위치하는 경우가 많다.
  • Dirichlet_ODIR(OD-정규화 포함)는 딥 네트에서 특히 cw-ECE 기준으로 온도 스케일링보다 자주 앞서는 경향이 있다.
  • CIFAR-10에서 Dirichlet 변형은 cw-ECE 및 log-loss에서 TempS를 능가하는 경우가 많고, CIFAR-100에서는 Dir-ODIR가 cw-ECE를 TempS보다 개선하나 log-loss는 다소 상승할 수 있다.
  • 행렬 스케일링과 ODIR의 조합은 일부 지표에서 Dir-ODIR보다 앞서는 경우도 있으나, 쌍별 효과를 모델링할 때의 이점은 여러 경우에서 명확하다(예: 로그손실 개선).
  • ODIR 정규화는 과적합을 완화하고 높은 차원의 보정 맵에서의 보정 품질을 유지하는 데 도움을 준다(예: 100개 클래스와 같은 경우).
  • 보정 맵은 보정 매개변수가 확정점인 단순체의 근처 확률을 어떻게 이동시키는지 보여주어 해석 가능성을 제공한다. 해석 포인트에는 단순체 중심과 면 면 중심이 포함된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.