QUICK REVIEW

[논문 리뷰] Revisiting the Calibration of Modern Neural Networks

Matthias Minderer, Josip Djolonga|arXiv (Cornell University)|2021. 06. 15.

Adversarial Robustness in Machine Learning참고 문헌 51인용 수 69

한 줄 요약

본 논문은 최근 이미지 분류기의 예측 불확실성 보정을 재평가하여, 현대의 비합성곱 아키텍처(예: ViT, MLP-Mixer)가 잘 보정되며 보정 추세가 모델 크기나 사전 학습 자체보다 아키텍처에 더 좌우된다는 점을, 특히 분포 변화 하에서 확인한다.

ABSTRACT

Accurate estimation of predictive uncertainty (model calibration) is essential for the safe application of neural networks. Many instances of miscalibration in modern neural networks have been reported, suggesting a trend that newer, more accurate models produce poorly calibrated predictions. Here, we revisit this question for recent state-of-the-art image classification models. We systematically relate model calibration and accuracy, and find that the most recent models, notably those not using convolutions, are among the best calibrated. Trends observed in prior model generations, such as decay of calibration with distribution shift or model size, are less pronounced in recent architectures. We also show that model size and amount of pretraining do not fully explain these differences, suggesting that architecture is a major determinant of calibration properties.

연구 동기 및 목표

급속한 아키텍처 진보에 비추어 최첨단 이미지 분류기가 여전히 잘 보정되는지 동기 부여하고 재평가한다.
다양한 모델 계열과 분포 조건에 걸쳐 보정과 정확도 간의 관계를 체계적으로 분석한다.
크기와 사전 학습 데이터 외의 보정 특성에 영향을 미치는 아키텍처 요인을 식별한다.
다양한 모델과 데이터셋에 걸친 광범위한 보정 평가를 가능하게 하는 대규모 데이터셋과 코드를 제공한다.

제안 방법

ImageNet-스케일 작업에서 합성곱 계열과 비합성곱 계열을 포함한 광범위한 현대 이미지 분류 모델 가족을 비교한다.
100개의 등질(bin)으로 구성된 Expected Calibration Error (ECE)를 사용하여 보정을 평가하고, 신뢰도 도표와 대안 지표(NLL, Brier score)를 포함한다.
사후 온도 스케일링을 적용하여 고유 보정과 신-confidence 편향을 분리하고 모델 가족 간의 효과를 평가한다.
정확도를 제어한 채로 보정에 대한 모델 크기와 사전 학습 양/데이터셋의 영향을 분석한다.
ImageNet-C 및 기타 out-of-distribution 벤치마크를 사용한 분포 이동 하의 보정을 평가하고, 데이터셋 간 일관성을 검토한다.

실험 결과

연구 질문

RQ1현대의 최첨단 이미지 분류기가 여전히 잘 보정되었는가, 아니면 정확도가 증가함에 따라 보정이 악화된다는 기존의 제안처럼 보정이 저하되는가?
RQ2온도 스케일링 후 모델 계열(합성곱 대 비합성곱) 간 보정은 어떻게 달라지는가?
RQ3특히 분포 이동 하에서 아키텍처 간 보정 차이가 모델 크기와 사전 학습 데이터에 의해 어느 정도 설명되는가?

주요 결과

현재 최고의 모델들, 비합성곱 계열인 MLP-Mixer와 Vision Transformers를 포함,은 과거 모델에 비해 잘 보정되어 있으며 분포 이동에 대해 강건하다.
인디스트리뷰션 보정은 모델 크기가 커질수록 약간 저하되지만, 이는 정확도 증가에 비해 작용을 상쇄한다.
분포 이동 하에서는 모델 크기가 커질수록 보정이 개선되어 인디스트리션 추세를 뒤집는다.
정확도와 보정 간 상관관계가 있어 정확도 최적화가 보정에 도움을 줄 수 있음을 시사한다.
모델 크기와 사전 학습 양만으로는 모델 계열 간 보정 차이를 완전히 설명하지 못하며, 아키텍처가 주요 결정 요인이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.