[論文レビュー] Maximum Likelihood with Bias-Corrected Calibration is Hard-To-Beat at Label Shift Adaptation
本稿では、バイアス補正キャリブレーションと最尤推定を組み合わせたハイブリッド手法を提案し、BBSL や RLLS といった最先端手法を凌駂数多くのデータセットで上回ることを示している。この手法は、EM を用いたラベルシフト適応の前にニューラルネットワーク予測の系統的誤差を是正することで、優れた精度を達成しており、尤度関数の凹性に起因する収束の理論的保証を有する。
Label shift refers to the phenomenon where the prior class probability p(y) changes between the training and test distributions, while the conditional probability p(x|y) stays fixed. Label shift arises in settings like medical diagnosis, where a classifier trained to predict disease given symptoms must be adapted to scenarios where the baseline prevalence of the disease is different. Given estimates of p(y|x) from a predictive model, Saerens et al. proposed an efficient maximum likelihood algorithm to correct for label shift that does not require model retraining, but a limiting assumption of this algorithm is that p(y|x) is calibrated, which is not true of modern neural networks. Recently, Black Box Shift Learning (BBSL) and Regularized Learning under Label Shifts (RLLS) have emerged as state-of-the-art techniques to cope with label shift when a classifier does not output calibrated probabilities, but both methods require model retraining with importance weights and neither has been benchmarked against maximum likelihood. Here we (1) show that combining maximum likelihood with a type of calibration we call bias-corrected calibration outperforms both BBSL and RLLS across diverse datasets and distribution shifts, (2) prove that the maximum likelihood objective is concave, and (3) introduce a principled strategy for estimating source-domain priors that improves robustness to poor calibration. This work demonstrates that the maximum likelihood with appropriate calibration is a formidable and efficient baseline for label shift adaptation; notebooks reproducing experiments available at https://github.com/kundajelab/labelshiftexperiments
研究の動機と目的
- トレーニング分布とテスト分布の間にクラス事前確率が変化するラベルシフトの問題に対処すること。特に、モデルが出力する確率が適切にキャリブレートされていない場合に焦点を当てる。
- 最尤推定と改善されたキャリブレーションを組み合わせることで、BBSL や RLLS といった既存の最先端手法を上回る性能を達成できるかどうかを評価すること。
- 系統的バイアスに強い、ソースドメインの事前確率を推定する原理的で整合性のある手法を開発すること。
- 提案されたキャリブレーションフレームワーク下で、最尤目的関数の凹性を証明し、グローバル最適解への収束を保証すること。
提案手法
- クラス固有のバイアスパラメータを用いた温度スケーリングの変種を適用し、モデル予測の系統的誤差を是正する。
- 事前に訓練されたモデルから得られるキャリブレート済み確率 $ p(y|\bm{x}) $ を、ラベルシフトのための最尤推定フレームワークの入力として使用する。
- 期待値最大化(EM)アルゴリズムを実装し、仮定 $ p(\bm{x}|y) = q(\bm{x}|y) $ を用いて、ターゲットドメインのクラス事前確率 $ q(y) $ を推定する。
- ホールドアウトされた検証セットを用いた原理的な戦略を導入し、キャリブレーションが不十分な状況下でもロバスト性を向上させるソースドメイン事前確率の推定を行う。
- 尤度関数が凹かつ有界であることを証明し、標準的な凸最適化技術を用いてグローバル最大値への収束を保証する。
実験結果
リサーチクエスチョン
- RQ1最尤推定とバイアス補正キャリブレーションを組み合わせることで、BBSL や RLLS といった既存の最先端手法を上回ることができるか?
- RQ2キャリブレーションにおけるクラス固有のバイアス補正を用いることで、標準的な温度スケーリングと比較して、適応性能が顕著に向上するか?
- RQ3提案されたキャリブレーションフレームワーク下で、最尤目的関数は凹であるか?これによりグローバル収束が保証されるか?
- RQ4ソースドメイン事前確率を推定する原理的な手法を用いることで、キャリブレート済み確率における系統的バイアスへのロバスト性が向上するか?
主な発見
- 提案手法である最尤推定とバイアス補正キャリブレーションは、MNIST、CIFAR10/CIFAR100、および糖尿病網膜症検出データセットにおいて、さまざまな分布シフトの下で BBSL や RLLS を一貫して上回る性能を発揮した。
- 標準的な温度スケーリングでは、キャリブレート済み確率に依然として系統的バイアスが残るため、ラベルシフト適応において最適な結果をもたらさない。
- キャリブレーションにおけるクラス固有のバイアス補正は、標準的なキャリブレーション手法と比較して、顕著に優れた適応性能を実現した。
- 最尤目的関数が凹かつ有界であることが証明され、提案されたフレームワーク下でグローバル最大値への収束が保証された。
- モデルの再訓練やハイパーパramータチューニングを必要とせず、BBSL や RLLS と比較して最先端の性能を達成した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。