QUICK REVIEW

[論文レビュー] DAFL: Data-Free Learning of Student Networks

Hanting Chen, Yunhe Wang|arXiv (Cornell University)|Apr 2, 2019

Advanced Neural Network Applications参考文献 27被引用数 9

ひとこと要約

本稿では、元の学習データにアクセスできない状況下で、教師ネットワークの活性を最大化するように生成されるGANベースの生成器を用いて、学習データなしにコンパクトな学生ネットワークを訓練するデータフリー蒸留フレームワークDAFLを提案する。本手法は、CIFAR-10で92.22%、CIFAR-100で74.47%の精度を達成し、教師ネットワークのインターフェースのみを用いても、データフリーな環境下で効果的な知識伝達を実現している。

ABSTRACT

Learning portable neural networks is very essential for computer vision for the purpose that pre-trained heavy deep models can be well applied on edge devices such as mobile phones and micro sensors. Most existing deep neural network compression and speed-up methods are very effective for training compact deep models, when we can directly access the training dataset. However, training data for the given deep network are often unavailable due to some practice problems (e.g. privacy, legal issue, and transmission), and the architecture of the given network are also unknown except some interfaces. To this end, we propose a novel framework for training efficient deep neural networks by exploiting generative adversarial networks (GANs). To be specific, the pre-trained teacher networks are regarded as a fixed discriminator and the generator is utilized for derivating training samples which can obtain the maximum response on the discriminator. Then, an efficient network with smaller model size and computational complexity is trained using the generated data and the teacher network, simultaneously. Efficient student networks learned using the proposed Data-Free Learning (DAFL) method achieve 92.22% and 74.47% accuracies using ResNet-18 without any training data on the CIFAR-10 and CIFAR-100 datasets, respectively. Meanwhile, our student network obtains an 80.56% accuracy on the CelebA benchmark.

研究の動機と目的

プライバシー、法的制約、または送信制約により元の学習データが入手できない状況下で、コンパクトな深層ニューラルネットワークをどのように訓練するかという課題に対処すること。
教師ネットワークの学習データやアーキテクチャにアクセスせずに、事前に学習済みの教師ネットワークからの知識蒸留を可能にすること。
GANを用いて合成データを生成し、より小型で効率的な学生ネットワークを効果的に訓練する手法を開発すること。
実際の学習データが一切不要な状況下で、標準ベンチマークで高い精度を達成すること。

提案手法

事前学習済みの教師ネットワークを固定された識別器として機能させる生成対抗ネットワーク（GAN）を採用する。
教師ネットワークの最終層の応答を最大化するように、生成器が合成データサンプルを生成する。
生成データ上で学生ネットワークを同時に訓練するとともに、教師ネットワークからの知識蒸留も実行する。
生成器は、教師ネットワークが高信頼度の予測を出力するようにデータを生成するように最適化される。
本手法は教師ネットワークの前方伝搬インターフェースのみに依存し、アーキテクチャや重みには依存しない。
合成データと蒸留損失を用いて、学生ネットワークをエンドツーエンドで訓練する。

実験結果

リサーチクエスチョン

RQ1元の学習データにアクセスできない状況下でも、学生ネットワークを効果的に訓練できるか？
RQ2学習データが存在しない状況下で、GANベースのデータ生成戦略が教師ネットワークから学生ネットワークへの知識伝達をどの程度効果的に実現できるか？
RQ3教師ネットワークの推論インターフェースと合成データのみを用いて、標準ベンチマークでどの程度の性能が達成できるか？
RQ4提案手法であるデータフリー蒸留法は、従来のデータ依存型知識蒸留手法と比較してどのように異なるか？

主な発見

DAFL手法は、実際の学習データが一切不要な状況下で、学生ネットワークを用いてCIFAR-10で92.22%のトップ1精度を達成した。
CIFAR-100では74.47%の精度を達成し、より複雑な分類タスクにおいても優れた一般化性能を示した。
CelebAベンチマークでは80.56%の精度を達成し、多様なビジョンタスクへの汎用性が示された。
本手法は、元のデータセットやモデルアーキテクチャにアクセスせずに、効果的なモデル圧縮と高速化を実現できる。
教師ネットワークを識別器として用いることで、GANで生成されたデータが、蒸留用途において実際のデータを効果的に模倣できることを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。