QUICK REVIEW

[論文レビュー] Normalized Conditional Mutual Information Surrogate Loss for Deep Neural Classifiers

Linfeng Ye, Zhixiang Chi|arXiv (Cornell University)|Jan 5, 2026

Advanced Neural Network Applications被引用数 0

ひとこと要約

要約: 本論文は、深層ニューラル分類器の訓練のための情報理論的代理損失として NCMI を提案し、NCMI の最小化が画像および全スライドイメージングタスク全般で一貫した精度向上をもたらすことを示し、クロスエントロピーと比較して訓練コストも競争力がある。

ABSTRACT

In this paper, we propose a novel information theoretic surrogate loss; normalized conditional mutual information (NCMI); as a drop in alternative to the de facto cross-entropy (CE) for training deep neural network (DNN) based classifiers. We first observe that the model's NCMI is inversely proportional to its accuracy. Building on this insight, we introduce an alternating algorithm to efficiently minimize the NCMI. Across image recognition and whole-slide imaging (WSI) subtyping benchmarks, NCMI-trained models surpass state of the art losses by substantial margins at a computational cost comparable to that of CE. Notably, on ImageNet, NCMI yields a 2.77% top-1 accuracy improvement with ResNet-50 comparing to the CE; on CAMELYON-17, replacing CE with NCMI improves the macro-F1 by 8.6% over the strongest baseline. Gains are consistent across various architectures and batch sizes, suggesting that NCMI is a practical and competitive alternative to CE.

研究の動機と目的

情報幾何学を用いた DNN 分類器のクロスエントロピーに代替となるドロップイン代理損失を動機付ける。
学習目的として正規化条件付き相互情報量 (NCMI) を定義・分析する。
NCMI を効率的に最小化するための交互最適化アルゴリズムを提案する。
自然画像および全スライドイメージングのベンチマークで NCMI の経験的利得を示す。
CE および他の損失と比較した NCMI の訓練効率と安定性を評価する。

提案手法

分類をマルコフ連鎖としてモデル化し、 concentration I(X;P|Y) と separation Γ を用いて NCMI = I(X;P|Y) / Γ を構成する。
DNN の出力を正規化シグモイド関数（NSF）を用いて simplex 値分布 p として表現する。
ダミークラス中心分布 q^y を用いた二重最小化の再表現を導入し、GPU に適した交互最適化を可能にする。
固定された中心 q^y による SGD によるネットワークパラメータ θ の反復更新と、同じミニバッチ上の SGD による中心の更新を行い、中心は NSF による softmax で simplex に写像される。
単一モード崩壊を防ぎ訓練を安定化させるための特徴量センタリングと NSF を組み込む。
交互最適化（アルゴリズム 1）の PyTorch スタイル擬似コードを提供する。

Figure 1: Mappings from the label space $Y$ to the input space $X$ , and from the input space to a output space $\hat{Y}$ . Input $\boldsymbol{x}$ are sampled from the class $Y=y$ according to the $P_{X|Y}(\cdot|y)$ . This is further mapped by a DNN and a simplex-valued function to an output probabi

実験結果

リサーチクエスチョン

RQ1NCMI は DNN 分類器を訓練する際のクロスエントロピーの代替として実用的なドロップイン代理損失となり得るか。
RQ2NCMI の最小化は出力分布のクラス内集中度とクラス間分離にどのように影響するか。
RQ3計算コストが過度にならずに NCMI を効率的に最小化できる交互最適化スキームは構築可能か。
RQ4NCMI で訓練されたモデルはアーキテクチャやデータセット（自然画像と WSI）全体で一貫した性能向上を達成し、訓練効率を維持できるか。
RQ5センタリングや NSF といった成分は訓練の安定性と性能にどう寄与するか。

主な発見

NCMI 訓練済みモデルは CE および複数の CE ベース代替より CIFAR-100、ImageNet、WSI ベンチマークで高い精度を達成する。
ImageNet の ResNet-50 で、NCMI は CE に対し top-1 精度を 2.77% 向上させる。
CIFAR-100 では、NCMI は複数の ResNet バックボーンで線形探索および中心分布予測を改善する。
CAMELYON-17 および BRACS の WSIs では、CE を NCMI に置換することで線形探索時の F1 および AUC が改善される。
NCMI 訓練は SupCon よりメモリ消費が少なく、1 バッチあたりの高速化が達成され、小さなバッチサイズでも堅牢に収束する。

Figure 2: The accuracy vs NCMI value over the validation set of pre-trained ResNet models on the ImageNet dataset.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。