[論文レビュー] Disentangling Label Distribution for Long-tailed Visual Recognition
本稿では、学習中にモデルの予測からソースラベル分布を分離する新しい損失関数であるLADE(Label distribution DisEntangling)を提案する。これにより、任意のターゲットラベル分布への一般化が可能になる。Donsker-Varadhan表現による最適バウンド推定を活用することで、CIFAR-100-LT、Places-LT、ImageNet-LT、iNaturalist 2018といった長尾ベンチマークで最先端の性能を達成するとともに、モデルのキャリブレーション性能も向上する。
The current evaluation protocol of long-tailed visual recognition trains the classification model on the long-tailed source label distribution and evaluates its performance on the uniform target label distribution. Such protocol has questionable practicality since the target may also be long-tailed. Therefore, we formulate long-tailed visual recognition as a label shift problem where the target and source label distributions are different. One of the significant hurdles in dealing with the label shift problem is the entanglement between the source label distribution and the model prediction. In this paper, we focus on disentangling the source label distribution from the model prediction. We first introduce a simple but overlooked baseline method that matches the target label distribution by post-processing the model prediction trained by the cross-entropy loss and the Softmax function. Although this method surpasses state-of-the-art methods on benchmark datasets, it can be further improved by directly disentangling the source label distribution from the model prediction in the training phase. Thus, we propose a novel method, LAbel distribution DisEntangling (LADE) loss based on the optimal bound of Donsker-Varadhan representation. LADE achieves state-of-the-art performance on benchmark datasets such as CIFAR-100-LT, Places-LT, ImageNet-LT, and iNaturalist 2018. Moreover, LADE outperforms existing methods on various shifted target label distributions, showing the general adaptability of our proposed method.
研究の動機と目的
- 現在の長尾視覚認識ベンチマークが均一なターゲット分布で評価されるという実用的制限に対処すること。これは、現実のデータとは一致しない可能性がある。
- ターゲット分布がソース分布と異なる長尾視覚認識問題として定式化すること。
- 学習中にソースラベル分布とモデル予測を分離することで、任意のターゲット分布への適応性を向上させること。
- 特に長尾設定において過信した予測を低減することで、モデルのキャリブレーションを改善すること。
提案手法
- PC Softmaxを提案する。これは、推論時にターゲットラベル分布に合わせてモデル予測を調整することで、ソース分布とのエンタングルメントを軽減する、後処理ベースのベースラインである。
- Donsker-Varadhan表現に基づく、学習時損失としての新しいLADEを導入する。これにより、モデルのログィットからソースラベル分布を直接分離する。
- Donsker-Varadhan表現の最適バウンドを活用し、理想的な状況ではログィット値が一様値に収束するようにモデル出力を正則化する。
- ハイパーパrameter α を用いて、分離の強度を制御する正則化項を適用し、安定的かつキャリブレートされた予測を保証する。
- 推論時にターゲットラベル分布 $p_t(y)$ をモデル出力に組み込むために、ログィットを $\log p_t(y) - \log p_u(y)$ で調整する。これにより、プラグアンドプレイな適応が可能になる。
- 信頼性キャリブレーションの定量的評価に期待されるキャリブレーション誤差(ECE)を用い、LADEが信頼性を向上させることを示している。
実験結果
リサーチクエスチョン
- RQ1推論時にターゲットラベル分布に一致させる単純な後処理手法が、長尾視覚認識において最先端の手法を上回る性能を発揮できるか?
- RQ2学習時にソースラベル分布を分離することで、推論時補正よりも任意のターゲット分布への一般化が向上するか?
- RQ3Donsker-Varadhan表現を効果的に活用して、ラベル分布とモデル予測を分離する微分可能な損失を構築できるか?
- RQ4LADEは特に長尾データセットにおいて、過信した予測を低減することでモデルのキャリブレーションを改善するか?
- RQ5LADEは、不均衡比やターゲット分布が異なる多様な長尾ベンチマークでどのように性能を発揮するか?
主な発見
- 推論時にターゲットラベル分布に一致させる単純な後処理ベースラインであるPC Softmaxが、CIFAR-100-LT、Places-LT、ImageNet-LT、iNaturalist 2018で最先端の手法を上回る性能を発揮した。
- LADEはCIFAR-100-LT(不均衡比100)、Places-LT、ImageNet-LT、iNaturalist 2018でトップ-1精度において最先端の性能を達成し、全データセットで一貫した向上を示した。
- 不均衡比が高くなるほど、LADEとPC Softmaxの性能差が拡大する傾向にあり、これはLADEが極めて不均衡なデータに対して優れた一般化性能を有することを示している。
- ImageNet-LTでは、LADEが期待されるキャリブレーション誤差(ECE)0.0346を達成し、Causal Norm や Balanced Softmax を上回った。これは、信頼性の高いキャリブレーションが実現されたことを示している。
- 可視化により、正則化強度 $\alpha$ が高くなるほど、LADEが理論的な一様値 $\log C$ にログィット値を正則化していることが確認され、分離メカニズムの有効性が裏付けられた。
- LADEは、さまざまなシフトしたターゲット分布に対しても効果的に一般化でき、不均衡設定が異なる複数のベンチマークデータセットで一貫した性能向上を示した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。