QUICK REVIEW

[論文レビュー] Knowledge Transfer with Jacobian Matching

Suraj Srinivas, François Fleuret|arXiv (Cornell University)|Mar 1, 2018

Reinforcement Learning in Robotics参考文献 20被引用数 58

ひとこと要約

本論文は、教師ネットワークと学生ネットワーク間のヤコビ行列マッチングが入力ノイズ付き蒸留と同値であることを示し、実用的な損失形を導出し、蒸留、ノイズ耐性、転移学習の改善を実証する。

ABSTRACT

Classical distillation methods transfer representations from a "teacher" neural network to a "student" network by matching their output activations. Recent methods also match the Jacobians, or the gradient of output activations with the input. However, this involves making some ad hoc decisions, in particular, the choice of the loss function. In this paper, we first establish an equivalence between Jacobian matching and distillation with input noise, from which we derive appropriate loss functions for Jacobian matching. We then rely on this analysis to apply Jacobian matching to transfer learning by establishing equivalence of a recent transfer learning procedure to distillation. We then show experimentally on standard image datasets that Jacobian-based penalties improve distillation, robustness to noisy inputs, and transfer learning.

研究の動機と目的

ヤコビ情報を用いて、異なるアーキテクチャ間のネットワーク間で知識転送を動機づける。
ヤコビ行列マッチングと入力ノイズベースの蒸留の理論的等価性を確立する。
蒸留および転移学習に適用可能なヤコビ行列マッチングの実用的な損失関数を導出する。
ヤコビ行列ベースのペナルティが蒸留、ノイズ耐性、転移学習を改善することを実証的に示す。

提案手法

1次テイラー展開を用いて、ヤコビアンをマッチさせることが入力ノイズ付き蒸留と等価であることを導出する。
2乗誤差蒸留損失を提案し、異なる損失関数（2乗誤差および交差エントロピー）の下でヤコビアン正則化項を導出する。
計算負荷を減らすため、全ヤコビアンの実用的近似を導入（正解クラスに関連する出力や最も大きい大きさの出力に焦点を当てる）。
ヤコビアンマッチングを転移学習フレームワークへ統合し、忘却なし学習（LwF）やアテンションマップマッチングとの結びつきを含む。
アテンションマップに基づく近似と選択的ヤコビアン計算を用いて、異アーキテクチャ間の転移学習を可能にする。
CIFAR-100蒸留、ノイズ耐性、MIT Scenes転移学習に関する実証的検証を提供する。

実験結果

リサーチクエスチョン

RQ1ヤコビアンマッチングは入力ノイズ付き蒸留として解釈できるか、そしてこの等価性に対応する損失は何か？
RQ2ヤコビアンベースの正則化は蒸留の性能を改善するか、特にデータが少ない場合に？
RQ3ヤコビアンマッチングは任意のアーキテクチャ間の転移学習に効果的に適用できるか、LwFやアテンションマップ戦略とどう関連するか？
RQ4ヤコビアン正則化は入力ノイズに対するロバスト性を高めるか？
RQ5深層ネットワークおよび異アーキテクチャ間のシナリオで、効率的なヤコビアンマッチングを可能にする実用的近似は何か？

主な発見

クラスあたりのデータ点数	クロスエントロピー（CE）訓練	CE + アクティベーションのマッチング	CE + ヤコビアンのマッチング	CE + アクティベーション + ヤコビアンのマッチング	アクティベーションのみのマッチング	アクティベーション + ヤコビアンのマッチング
1	5.69	12.13	6.78	13.78	10.73	13.09
5	13.90	26.97	23.94	33.39	28.56	33.31
10	20.03	33.92	32.03	39.55	33.60	38.16
50	37.60	46.47	45.71	49.49	45.73	47.79
100	44.92	50.92	51.47	52.43	50.15	50.06
500 (full)	54.28	56.65	53.44	54.57	56.59	51.33

ヤコビアンマッチングは入力ノイズ付き蒸留と等価であり、損失に追加のヤコビアン正則化項を生じる。
CIFAR-100の有限データ蒸留では、活性化とヤコビアンの組み合わせが活性化のみの蒸留より精度を改善し、データの一部でほぼ全データの性能に近づく。
ヤコビアンノルムペナルティはガウスノイズに対するロバスト性を向上させ、ノイズ耐性テストで標準のL2正則化やドロップアウトを上回る。
転移学習では、活性化とアテンションを用いたヤコビアンマッチングを組み込むと、活性化のみの手法より利得があり、特にデータが少ない場合に顕著。
ヤコビアン損失を浅い特徴レイヤーでマッチングすると転移性能が向上; ヤコビアンベースの手法は活性化/アテンションマッチングに加えると一貫して結果を改善する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。