Skip to main content
QUICK REVIEW

[論文レビュー] Like What You Like: Knowledge Distill via Neuron Selectivity Transfer

Zehao Huang, Naiyan Wang|arXiv (Cornell University)|Jul 5, 2017
Domain Adaptation and Few-Shot Learning参考文献 41被引用数 341
ひとこと要約

NSTは知識転送を教師と学生間のニューロン選択性パターンの分布整合として扱い、MMDを用いてコンパクトなモデルを改善。CIFARとImageNetで強い gains を生み、他のKT手法を補完。

ABSTRACT

Despite deep neural networks have demonstrated extraordinary power in various applications, their superior performances are at expense of high storage and computational costs. Consequently, the acceleration and compression of neural networks have attracted much attention recently. Knowledge Transfer (KT), which aims at training a smaller student network by transferring knowledge from a larger teacher model, is one of the popular solutions. In this paper, we propose a novel knowledge transfer method by treating it as a distribution matching problem. Particularly, we match the distributions of neuron selectivity patterns between teacher and student networks. To achieve this goal, we devise a new KT loss function by minimizing the Maximum Mean Discrepancy (MMD) metric between these distributions. Combined with the original loss function, our method can significantly improve the performance of student networks. We validate the effectiveness of our method across several datasets, and further combine it with other KT methods to explore the best possible results. Last but not least, we fine-tune the model to other tasks such as object detection. The results are also encouraging, which confirm the transferability of the learned features.

研究の動機と目的

  • 新しい知識転送パラダイムを通じてネットワークの加速と圧縮を動機づける。
  • 教師と学生間のニューロン活性化の分布を一致させる Neuron Selectivity Transfer (NST) の導入。
  • ニューロン選択性パターンを整列させる核心NST損失として Maximum Mean Discrepancy (MMD) を活用する。
  • CIFAR-10/100、ImageNet、および物体検出などの下流タスクでNSTの有効性を示す。
  • NSTが既存のKT手法を補完し、より良い結果をもたらすことを示す。

提案手法

  • ニューロンの活性化を空間的な位置に跨る選択性パターンの分布として扱う。
  • NST損失を、教師と学生の特徴マップ間のクロスエントロピーとスケーリングされたMMD項として定義する。
  • MMDを計算する前に特徴マップを正規化してサンプルスケールを揃える。
  • MMDのカーネルを3つ検討する:linear、polynomial(二次、c=0)、Gaussian。
  • 多項式カーネルを用いたNSTはしばしば最高の性能を示す。

実験結果

リサーチクエスチョン

  • RQ1MMDを介して教師と学生間のニューロン選択性の分布を整列させることで、直接的な特徴マップ整合を超える学生ネットワークの性能向上は見込めるか。
  • RQ2標準データセット(CIFAR、ImageNet)および下流タスクにおける既存のKT手法(KD、FitNet、AT)とのNSTの比較はどうなるか。
  • RQ3NSTは他のKT手法と補完的であり、組み合わせると有益か(例:KD+NST)?

主な発見

方法モデルCIFAR-10CIFAR-100
StudentInception-BN5.8025.63
KD [19]Inception-BN4.4722.18
FitNet [36]Inception-BN4.7523.48
AT [38]Inception-BN4.6424.31
NST (linear)Inception-BN4.8724.28
NST (poly)Inception-BN4.3923.46
NST (Gaussian)Inception-BN4.4823.85
  • NSTはCIFAR-10とCIFAR-100のベースラインより学生モデルの性能を向上させる。
  • 多項式カーネルを用いたNSTはNSTのバリアントの中でCIFARの最良結果をしばしば生む(例:Table 1のInception-BNでCIFAR-10は4.39、CIFAR-100は23.46)。
  • ImageNetでは、二次多項式カーネルを用いたNSTがベースラインの学生に対してTop-1で0.9%、Top-5で0.5%の利得をもたらす。
  • NSTとKDを組み合わせるとCIFARとImageNetで総合的な利得が最も大きくなる(例:KD+NST* がトップの結果を生む)。
  • NSTはFaster R-CNNと併用したPASCAL VOC 2007で物体検出性能を改善し、このタスクで他のKT手法を上回ることが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。