QUICK REVIEW

[論文レビュー] Training Shallow and Thin Networks for Acceleration via Knowledge Distillation with Conditional Adversarial Networks

Zheng Xu, Yen-Chang Hsu|arXiv (Cornell University)|Sep 1, 2017

Anomaly Detection Techniques and Applications被引用数 83

ひとこと要約

本論文は、深く広い教師からの知識蒸留のためのGANベースの学習損失を導入し、深くて広い教師から浅くて薄い学生ネットワークを訓練することで、大きな精度低下を伴わずに加速対応モデルを改善します。GANアプローチは、CIFAR-10/100およびImageNet32で従来のKDを上回り、特に小型の学生に対して効果的です。

ABSTRACT

There is an increasing interest on accelerating neural networks for real-time applications. We study the student-teacher strategy, in which a small and fast student network is trained with the auxiliary information learned from a large and accurate teacher network. We propose to use conditional adversarial networks to learn the loss function to transfer knowledge from teacher to student. The proposed method is particularly effective for relatively small student networks. Moreover, experimental results show the effect of network size when the modern networks are used as student. We empirically study the trade-off between inference time and classification accuracy, and provide suggestions on choosing a proper student network.

研究の動機と目的

強力な教師からの知識移転を通じて軽量な学生モデルを訓練し、ネットワークの加速を促進する。
固定された KL-divergence のターゲットを超えるダーク知識を転送するため、条件付き敵対的ネットワークベースの損失を提案する。
学習された損失が浅い/薄い学生や現代の残差アーキテクチャに特に有益であることを示す。
学生キャパシティ、深さ/幅、推論時のトレードオフが性能にどのように影響するかを分析する。

提案手法

深くて広い WRN を固定された教師として使用し、浅くて薄い WRN 学生を訓練する。
固定KD損失を、判別器が教師と学生のロジットを識別するGANベースの学習損失に置換し、学生が教師に似た分布を生成するよう導く。
GAN損失に補助分類器コンポーネントを追加しカテゴリレベルの整合性を提供し、学生ロジットと教師ロジット間のL1インスタンスレベル整合項（L1 損失）を追加する。
学習したGANベースの損失を監督付きクロスエントロピ損失と組み合わせて学生を訓練する（損失重みの手動調整は不要）。
3層のMLP判別器で実験し、判別器の深さ、訓練の安定性、およびマルチタスク信号に対する頑健性を分析する。

実験結果

リサーチクエスチョン

RQ1GANベースの学習損失は、小型・高速な学生ネットワークに対して固定KD損失よりダーク知識をより効果的に転送できるか？
RQ2学生のキャパシティ(深さ/幅)は知識転送の有効性と加速ポテンシャルにどのように影響するか？
RQ3現代の残差アーキテクチャでGANベースの蒸留を使用した場合、推論時間・パラメータ数・精度のトレードオフはどうなるか？
RQ4学習済み損失は、ディスクリミネータのアーキテクチャと訓練ダイナミクスに対して、データセットの規模が異なる(CIFAR-10/100, ImageNet32)場合に頑健か？

主な発見

GANベースの知識転送は、CIFAR-10、CIFAR-100、ImageNet32の小規模ネットワークで従来のKDと比較して改善をもたらす。
CIFAR-10/100では、GAN法は基準となる学生に対して誤差を低減し、固定KDを上回る（試験温度全体で）。
ImageNet32では、GANアプローチにより、KDよりも小さな学生が教師の性能により近づく。
GANベースのアプローチの利点は浅い/薄い学生で最も顕著であり、学生のキャパシティが増しても効果が維持される。
判別器の深さを増やしても影響は限定的であり、3層MLPはこれらの実験で十分かつ安定している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。