QUICK REVIEW

[논문 리뷰] Maximum Likelihood with Bias-Corrected Calibration is Hard-To-Beat at Label Shift Adaptation

Amr M. Alexandari, Anshul Kundaje|arXiv (Cornell University)|2019. 01. 21.

Machine Learning and Data Classification참고 문헌 19인용 수 32

한 줄 요약

이 논문은 레이블 시프트 적응을 위해 편향 보정 캘리브레이션과 최대우도 추정을 조합한 하이브리드 방법을 제안하며, 다양한 데이터셋에서 BBSL 및 RLLS와 같은 최신 기법들을 능가함을 입증한다. 이 방법은 EM을 통한 레이블 시프트 적응을 시행하기 이전에 신경망 예측의 체계적 오차를 보정함으로써 뛰어난 정확도를 달성한다. 최대우도 함수의 볼록성 보장으로 인해 수렴성이 이론적으로 보장된다.

ABSTRACT

Label shift refers to the phenomenon where the prior class probability p(y) changes between the training and test distributions, while the conditional probability p(x|y) stays fixed. Label shift arises in settings like medical diagnosis, where a classifier trained to predict disease given symptoms must be adapted to scenarios where the baseline prevalence of the disease is different. Given estimates of p(y|x) from a predictive model, Saerens et al. proposed an efficient maximum likelihood algorithm to correct for label shift that does not require model retraining, but a limiting assumption of this algorithm is that p(y|x) is calibrated, which is not true of modern neural networks. Recently, Black Box Shift Learning (BBSL) and Regularized Learning under Label Shifts (RLLS) have emerged as state-of-the-art techniques to cope with label shift when a classifier does not output calibrated probabilities, but both methods require model retraining with importance weights and neither has been benchmarked against maximum likelihood. Here we (1) show that combining maximum likelihood with a type of calibration we call bias-corrected calibration outperforms both BBSL and RLLS across diverse datasets and distribution shifts, (2) prove that the maximum likelihood objective is concave, and (3) introduce a principled strategy for estimating source-domain priors that improves robustness to poor calibration. This work demonstrates that the maximum likelihood with appropriate calibration is a formidable and efficient baseline for label shift adaptation; notebooks reproducing experiments available at https://github.com/kundajelab/labelshiftexperiments

연구 동기 및 목표

학습 및 테스트 분포 간 클래스 사전 확률의 변화가 발생하는 레이블 시프트 문제를 다루며, 특히 모델이 잘못 캘리브레이션된 확률을 출력하는 경우를 고려한다.
최대우도 추정과 향상된 캘리브레이션을 조합하면 BBSL 및 RLLS와 같은 기존 최신 기법들을 능가할 수 있는지 평가한다.
시스템적 편향이 있는 캘리브레이션된 예측에 대해 강건한 성능을 보이기 위해 소스 도메인 사전 확률을 추정하는 원칙적인 방법을 개발한다.
제안된 캘리브레이션 프레임워크 하에서 최대우도 목표 함수의 볼록성을 증명하여 전역 최대값 수렴을 보장한다.

제안 방법

계층별 편향 매개변수를 갖는 온도 스케일링의 변형을 적용하여 모델 예측의 체계적 오차를 보정한다.
사전 학습된 모델에서 도출된 캘리브레이션된 확률 $ p(y|\bm{x}) $ 를 최대우도 추정 프레임워크에 입력으로 사용하여 레이블 시프트를 적응한다.
기대값-최대화(EM) 알고리즘을 구현하여 목표 도메인의 클래스 사전 확률 $ q(y) $ 를 추정하며, $ p(\bm{x}|y) = q(\bm{x}|y) $ 라는 가정을 활용한다.
검증 세트를 활용한 원칙적인 전략을 도입하여 소스 도메인 사전 확률을 추정함으로써 잘못 캘리브레이션된 상태에서도 강건성을 향상시킨다.
최대우도 함수가 볼록하고 유계임을 증명하여 표준 볼록 최적화 기법을 사용해 전역 최대값으로 수렴함을 보장한다.

실험 결과

연구 질문

RQ1최대우도 추정과 편향 보정 캘리브레이션을 조합하면 BBSL 및 RLLS와 같은 기존 최신 기법들을 뛰어넘을 수 있는가?
RQ2캘리브레이션에서 계층별 편향 보정을 사용할 경우 표준 온도 스케일링 대비 적응 성능 향상이 뚜렷한가?
RQ3제안된 캘리브레이션 프레임워크 하에서 최대우도 목표 함수가 볼록한가? 이는 전역 수렴을 보장한다.
RQ4소스 도메인 사전 확률을 추정하는 원칙적인 방법이 캘리브레이션된 확률의 체계적 편향에 대해 강건성을 향상시킬 수 있는가?

주요 결과

제안된 최대우도 추정과 편향 보정 캘리브레이션 방법은 MNIST, CIFAR10/CIFAR100, 그리고 당뇨병 망막병변 탐지 데이터셋에서 다양한 분포 이탈 상황에서도 BBSL 및 RLLS를 일관되게 능가한다.
표준 온도 스케일링은 캘리브레이션된 확률에 지속적인 체계적 편향이 존재하므로 레이블 시프트 적응에 최적의 성능을 내지 못한다.
캘리브레이션에서 계층별 편향 보정을 적용할 경우 표준 캘리브레이션 기법 대비 뚜렷한 향상된 적응 성능을 달성한다.
최대우도 목표 함수가 볼록하고 유계임을 증명하여 제안된 프레임워크 하에서 전역 최대값으로 수렴함을 보장한다.
모델 재학습이나 하이퍼파라미터 튜닝 없이도 최신 기술 수준의 성능을 달성한다. 이는 BBSL 및 RLLS와는 달리 해당 기법들이 요구하는 조건을 충족하지 않는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.