QUICK REVIEW

[論文レビュー] Regularizing Class-wise Predictions via Self-knowledge Distillation

Sukmin Yun, Jongjin Park|arXiv (Cornell University)|Mar 31, 2020

Domain Adaptation and Few-Shot Learning参考文献 54被引用数 30

ひとこと要約

クラスごとの自己知識蒸留 (CS-KD) を導入し、同一ネットワーク内の同一クラスサンプルの予測分布を揃える正則化手法。一般化性能とキャリブレーションを改善。

ABSTRACT

Deep neural networks with millions of parameters may suffer from poor generalization due to overfitting. To mitigate the issue, we propose a new regularization method that penalizes the predictive distribution between similar samples. In particular, we distill the predictive distribution between different samples of the same label during training. This results in regularizing the dark knowledge (i.e., the knowledge on wrong predictions) of a single network (i.e., a self-knowledge distillation) by forcing it to produce more meaningful and consistent predictions in a class-wise manner. Consequently, it mitigates overconfident predictions and reduces intra-class variations. Our experimental results on various image classification tasks demonstrate that the simple yet powerful method can significantly improve not only the generalization ability but also the calibration performance of modern convolutional neural networks.

研究の動機と目的

大規模ニューラルネットワークの過適合を抑制する正則化を動機づける。
同じネットワーク内のダーク知識を正則化する CS-KD を提案する。
クラスごとの蒸留がクラス内変動を低減し、キャリブレーションを改善することを示す。
CS-KD を CIFAR-100、TinyImageNet、およびファイングレインデータセットで CNN を用いて評価する。

提案手法

同じラベルを持つ二つのサンプルの予測分布を一致させるクラスごとの KL 発散損失を定義する。
勾配を安定化させるためにネットワークパラメータの固定コピーを用いる（自己蒸留）。
元のサンプルのクロスエントロピーと組み合わせ、温度 T およびウェイト lambda_cls でスケーリングする。
SGD と標準データ増強でエンドツーエンドに訓練する。温度と lambda_cls はハイパーパラメータ。
任意で拡張入力損失 CS-KD-E を追加し、元のサンプルと拡張サンプルの間に KL 項を追加する。

実験結果

リサーチクエスチョン

RQ1同じモデル内で同じクラスのサンプルの予測の一貫性を強制することは、一般化を改善するか。
RQ2CS-KD はクラス内の予測分散を減少させ、キャリブレーションを改善するか。
RQ3CS-KD は他の出力正則化子や自己蒸留法と比べて多様なデータセットでどうでるか。
RQ4CS-KD は Mixup や KD を補完してさらなる性能向上をもたらすか。
RQ5CS-KD は ImageNet のような大規模データセットや複数のアーキテクチャにスケール可能か。

主な発見

モデル	手法	CIFAR-100	TinyImageNet	CUB-200-2011	Stanford Dogs	MIT67
Cross-entropy	Baseline	24.71 ± 0.24	43.53 ± 0.19	46.00 ± 1.43	36.29 ± 0.32	44.75 ± 0.80
CS-KD（私たちの手法）	クラスごとに自己知識蒸留	21.99 ± 0.13	41.62 ± 0.38	33.28 ± 0.99	30.85 ± 0.28	40.45 ± 0.45

CS-KD は複数データセットにおいて、クロスエントロピーや他の正則化手法と比較してトップ-1 誤差を一貫して低下させる。
CIFAR-100 では、CS-KD は ResNet-18 の場合、クロスエントロピーの 24.71% に対して 21.99% のトップ-1 誤差を達成。
CS-KD は校正を改善し、ECE 値が低く、信頼できる信頼度推定を示す。
CS-KD と Mixup や KD の組み合わせは、追加の利得を生む（例: CIFAR-100 で Mixup + CS-KD がトップ-1 誤差を 20.40% に低減）。
CS-KD は特徴空間のクラス内変動を低減し、R@1 および t-SNE の視覚化でより意味のある予測を生み出す。
ImageNet では ResNet-50、ResNet-101、ResNeXt-101-32x4d の各モデルで CS-KD が一貫したトップ-1 の改善を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。