Skip to main content
QUICK REVIEW

[論文レビュー] Contrastive Representation Distillation

Yonglong Tian, Dilip Krishnan|arXiv (Cornell University)|Oct 23, 2019
Domain Adaptation and Few-Shot Learning参考文献 36被引用数 64
ひとこと要約

CRD は 教師から学生への表現転送のための対照学習目標を用い、標準的な知識蒸留を上回り、モデル圧縮、クロスモーダル転送、アンサンブル蒸留タスクで優れている。

ABSTRACT

Often we wish to transfer representational knowledge from one neural network to another. Examples include distilling a large network into a smaller one, transferring knowledge from one sensory modality to a second, or ensembling a collection of models into a single estimator. Knowledge distillation, the standard approach to these problems, minimizes the KL divergence between the probabilistic outputs of a teacher and student network. We demonstrate that this objective ignores important structural knowledge of the teacher network. This motivates an alternative objective by which we train a student to capture significantly more information in the teacher's representation of the data. We formulate this objective as contrastive learning. Experiments demonstrate that our resulting new objective outperforms knowledge distillation and other cutting-edge distillers on a variety of knowledge transfer tasks, including single model compression, ensemble distillation, and cross-modal transfer. Our method sets a new state-of-the-art in many transfer tasks, and sometimes even outperforms the teacher network when combined with knowledge distillation. Code: http://github.com/HobbitLong/RepDistiller.

研究の動機と目的

  • 出力確率だけでなく、表現の知識を転送することを動機づける。
  • 出力次元を独立に扱うKLベースのKDの制限に対処する。
  • 表現の相関や高次依存を捉える対照的な目的を提案する。
  • モデル圧縮、クロスモーダル転送、アンサンブル蒸留の各分野でCRDの効果を示す。

提案手法

  • 教師と学生の表現を倒数第2層で定義する。
  • 対応する(x)教師-学生ペアを近づけ、対応しないペアを離す対照的損失を構築する。
  • TとSを用いてP(C=1|T,S)を推定するクリティックhを介して相互情報の下界を定式化し、それを対数尤度に関連する目的を最大化するために用いる。
  • トレーニングを安定化させるために、ネガティブサンプルのメモリバンクを用いたInfoNCEに類似した実用的な目的を導出する。
  • 必要に応じてKD項やクロスモーダル/アンサンブル拡張を組み込み、CRD および CRD+KD 変種を生み出す。

実験結果

リサーチクエスチョン

  • RQ1対照的な表現目的は、従来のKDを超えて教師から学生への知識転送を改善するか?
  • RQ2モデル圧縮、クロスモーダル転送、アンサンブル蒸留におけるCRDのKDおよび他の蒸留手法と比較した性能は?
  • RQ3表現転送を導く際のネガティブサンプリングと相互情報量の下界の役割は何か?

主な発見

  • CRDはTable 1においてCIFAR-100でKDを一貫して上回り、さまざまな教師-学生ペアで、CIFAR-100ではKDに対して平均相対改善率57%を達成。
  • CRDはTable 2に示されるように、異なる教師/学生アーキテクチャ間のクロスアーキテクチャ転送もKDおよび他の手法より改善。
  • CRD+KDとしてKDと組み合わせることで、いくつかの設定で性能をさらに向上させることができる。
  • モデル圧縮、クロスモーダル転送、アンサンブル蒸留の各領域で、いくつかの設定で最先端の結果をCRDが示す。
  • この手法は、条件付きクラス確率だけでなく、教師の表現からの情報転送を強調し、KDと組み合わせた場合には教師を上回ることさえある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。