QUICK REVIEW

[論文レビュー] Zero-Shot Knowledge Distillation in Deep Networks

Gaurav Kumar Nayak, Konda Reddy Mopuri|NOT FOUND REPOSITORY (Indian Institute of Science Bangalore)|May 20, 2019

Machine Learning and Data Classification被引用数 85

ひとこと要約

この論文は、Dirichletモデリングを用いて教師モデルのソフトマックス空間からData Impressionsを合成するデータ不要の知識蒸留フレームワークを提案し、学習データなしでKDを可能にし、MNIST、Fashion-MNIST、CIFAR-10で競争力のある性能を達成する。

ABSTRACT

Knowledge distillation deals with the problem of training a smaller model (Student) from a high capacity source model (Teacher) so as to retain most of its performance. Existing approaches use either the training data or meta-data extracted from it in order to train the Student. However, accessing the dataset on which the Teacher has been trained may not always be feasible if the dataset is very large or it poses privacy or safety concerns (e.g., bio-metric or medical data). Hence, in this paper, we propose a novel data-free method to train the Student from the Teacher. Without even using any meta-data, we synthesize the Data Impressions from the complex Teacher model and utilize these as surrogates for the original training data samples to transfer its learning to Student via knowledge distillation. We, therefore, dub our method "Zero-Shot Knowledge Distillation" and demonstrate that our framework results in competitive generalization performance as achieved by distillation using the actual training data samples on multiple benchmark datasets.

研究の動機と目的

知識蒸留におけるデータアクセス性/プライバシーの課題が、訓練データが利用できないまたは制限されている場合に動機づけられ、対処する。
Dirichlet分布でソフトマックス空間をモデル化して、教師からPseudoサンプル(Data Impressions)を合成するデータなしKDパイプラインを提案する。
教師からクラス類似性 priorsを導出して転移を改善するために、Data Impressionsの合成を導く。
「ZSKD」の多様なデータセットでの有効性を実証し、データ依存ベースラインとメタデータアプローチと比較する。

提案手法

教師のソフトマックス出力をクラスごとにDirichlet分布で表現し、クラス間の類似性を捉える。
教師の最終層および前層の重みからクラス類似性行列を算出し、それをDirichletの濃度パラメータに形成する。
各クラスkについてDir(K, alpha^k)からソフトマックスベクトルをサンプリングし、サンプリングされたソフトマックスにクロスエントロピーを最小化するよう入力を最適化して対応するData Impressionsを作成する。
転送セット(Data Impressions)を生成し、教師と学生の間のKD損失のみを用いて知識蒸留を実施する。
ディリクレ濃度とData Impressionsの多様性を制御するスケーリング係数betaを使用する。
distillation中にData Impressionsを任意に拡張して性能を向上させるオプション。

実験結果

リサーチクエスチョン

RQ1訓練データやデータ由来のメタデータにアクセスできない状態で知識蒸留を効果的に実施できるか。
RQ2教師のソフトマックス空間から合成されたPseudoサンプル(Data Impressions)が学生の訓練に有効な転送セットとなり得るか。
RQ3ソフトマックス空間をDirichletベースでモデリングすることが、データ合成を導くためのクラス間の類似性をどれだけうまく捉えるか。
RQ4Zero-Shot KDは標準的なデータ依存KDおよびデータなしベースラインと比較してどの程度の差があるか。

主な発見

ZSKDは元データを用いずにMNIST、Fashion-MNIST、CIFAR-10でデータ駆動型KDと競合的な一般化性能を達成する。
MNIST、Fashion-MNIST、CIFAR-10の各データセットでData Impressionsを用いるZSKDは従来のデータなしおよび少量データ手法を上回り、いくつかの設定で完全データを用いたKDの性能に近づく。
Dirichletベースのソフトマックスモデリングは、学習されたClass Similarity Matrixに導かれ、多様でかつ関連性の高い疑似サンプルを生み出し、それがStudentへの知識移転を効果的に促進する。
転送セットサイズ（Data Impressions）を増やすほど一般的には性能が向上するが、セットが大きくなるにつれて利得は逓減し、より単純なデータセットは競合的結果に到達するのに必要なインプレッションが少ない。
Data Impressionsはしばしば実データと視覚的に異なるが、それでも意味のあるKDを誘発し、時には認識可能な物体パターンを捉える。
BetaでスケールされたDirichletパラメータの混合（beta値0.1および1.0）を使用することで、多様性と実践的な性能が向上する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。