QUICK REVIEW

[논문 리뷰] Mitigating Bias in Calibration Error Estimation

Rebecca Roelofs, Nicholas Cain|arXiv (Cornell University)|2020. 12. 15.

Adversarial Robustness in Machine Learning참고 문헌 37인용 수 23

한 줄 요약

이 논문은 기계학습 모델의 校정 오차 추정에서 통계적 편향을 정량화하고 감소시키기 위한 프레임워크를 제안한다. 등질량 구간화와 새로운 단조성 유지 추정기인 ECE_sweep가 표준 등용량 구간화보다 뛰어나며, 校정 재조정 방법 선택과 잘못된 校정 탐지에 크게 기여한다.

ABSTRACT

For an AI system to be reliable, the confidence it expresses in its decisions must match its accuracy. To assess the degree of match, examples are typically binned by confidence and the per-bin mean confidence and accuracy are compared. Most research in calibration focuses on techniques to reduce this empirical measure of calibration error, ECE_bin. We instead focus on assessing statistical bias in this empirical measure, and we identify better estimators. We propose a framework through which we can compute the bias of a particular estimator for an evaluation data set of a given size. The framework involves synthesizing model outputs that have the same statistics as common neural architectures on popular data sets. We find that binning-based estimators with bins of equal mass (number of instances) have lower bias than estimators with bins of equal width. Our results indicate two reliable calibration-error estimators: the debiased estimator (Brocker, 2012; Ferro and Fricker, 2012) and a method we propose, ECE_sweep, which uses equal-mass bins and chooses the number of bins to be as large as possible while preserving monotonicity in the calibration function. With these estimators, we observe improvements in the effectiveness of recalibration methods and in the detection of model miscalibration.

연구 동기 및 목표

모델 校정에 널리 사용되는 ECE_bin 추정기에서 통계적 편향을 특정하고 정량화하는 것.
교정 오차 추정의 편향이 재조정 기법 선택과 효과성에 어떻게 영향을 미치는지 평가하는 것.
실제 모델 신뢰도 점수 분포를 반영한 시뮬레이션 기반 프레임워크를 개발하여 편향을 추정하는 것.
여러 가지 교정 오차 추정기 간 비교를 통해 실무 적용에 가장 적합한 편향이 가장 적은 추정기를 특정하는 것.
의료 및 자율 주행 시스템과 같은 고위험 응용 분야에서 모델 교정 평가의 신뢰도를 향상시키는 것.

제안 방법

CIFAR-10, CIFAR-100, ImageNet에서 실제 신경망의 통계와 일치하는 모델 신뢰도 점수를 합성하는 편향-구축(BBC) 프레임워크를 개발한다.
최대우도 추정을 사용하여 시뮬레이션 데이터에서 진짜 교정 오차(TCE)를 분석적으로 추정함으로써 직접적인 편향 계산이 가능해진다.
일곱 가지 추정기인 ECE_bin(등용량 구간), ECE_sweep(등질량 구간에 단조성 제약 조건 적용), ECE_debias(편향 보정 추정기), KDE(커널 밀도 추정기)를 비교한다.
등질량 구간화를 사용하여 표본 수가 적은 구간의 희소성 문제를 방지함으로써 편향을 감소시킨다.
교정 곡선의 단조성을 유지하면서 최대한 많은 구간 수를 선택하는 새로운 추정기인 ECE_sweep를 도입한다.
다양한 모델 아키텍처와 데이터셋을 대상으로 추정기의 편향, 분산 및 재조정 결정에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1ECE_bin의 통계적 편향은 다양한 모델 아키텍처와 데이터셋 분포에서 어떻게 변화하는가?
RQ2완전히 교정된 모델의 교정 오차를 추정할 때 ECE_bin의 편향 크기와 방향은 어떠한가?
RQ3등용량 대비 등질량 구간화 전략이 추정기 편향에 어떤 영향을 미치는가?
RQ4ECE_sweep라는 새로운 추정기는 교정 함수의 단조성을 유지하면서 편향을 줄일 수 있는가?
RQ5추정기 편향이 실무에서 최적의 재조정 방법 선택에 어떻게 영향을 미치는가?

주요 결과

등용량 구간을 사용하는 ECE_bin은 완전히 교정된 모델일지라도 큰 체계적 편향을 보이며, 종종 교정 오차를 과대평가한다.
등질량 구간화는 등용량 구간화보다 훨씬 더 편향을 감소시키며, 특히 표본 수가 적은 영역에서 두드러진다.
등질량 구간을 사용하고 단조성을 유지하면서 최대 구간 수를 선택하는 ECE_sweep는 ECE_bin보다 편향이 적고, 현실적인 설정에서 ECE_debias보다도 뛰어나다.
편향 보정 추정기(ECE_debias)는 ECE_bin보다 편향이 적지만, 점수 분포의 비대칭성에 민감하여 실무 상황에서는 ECE_sweep에 뒤지게 된다.
Table 1에 나타나 있듯이, ECE_bin 대신 ECE_sweep를 사용할 경우 재조정 방법 선택에서 10번 중 7번에서 성능 향상을 보였고, ECE_bin을 사용할 경우는 10번 중 3번 뿐이었다.
특히 표본 수가 적거나 신뢰도 점수 분포가 비대칭인 영역에서 ECE_sweep는 ECE_bin보다 잘못된 교정을 더 민감하게 탐지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.