Skip to main content
QUICK REVIEW

[論文レビュー] Data-Free Knowledge Distillation for Deep Neural Networks

Raphael Gontijo Lopes, Stefano Fenu|arXiv (Cornell University)|Oct 19, 2017
Generative Adversarial Networks and Image Synthesis参考文献 15被引用数 214
ひとこと要約

本論文は、訓練データにアクセスできない状況で、モデルのメタデータから訓練時と同様のデータを再構成して大規模ニューラルネットワークを圧縮するデータフリー知識蒸留手法を提案する。

ABSTRACT

Recent advances in model compression have provided procedures for compressing large neural networks to a fraction of their original size while retaining most if not all of their accuracy. However, all of these approaches rely on access to the original training set, which might not always be possible if the network to be compressed was trained on a very large dataset, or on a dataset whose release poses privacy or safety concerns as may be the case for biometrics tasks. We present a method for data-free knowledge distillation, which is able to compress deep neural networks trained on large-scale datasets to a fraction of their size leveraging only some extra metadata to be provided with a pretrained model release. We also explore different kinds of metadata that can be used with our method, and discuss tradeoffs involved in using each of them.

研究の動機と目的

  • プライバシーや規模の制約により元の訓練データを公開できない場合に、圧縮の必要性を動機づける。
  • 活性化ベースのメタデータを用いて入力を再構成するデータフリーディスティレーション・パイプラインを提案する。
  • 再構成品質とメタデータ要件のバランスを取るために、複数の活性化レコード戦略を検討する。
  • MNIST から CelebA まで、異なるモデルサイズでのスケーラビリティを実証する。

提案手法

  • 教師モデルを訓練し、層を横断する活性化レコードをメタデータとして保存する。
  • 保存済みの活性化と一致するよう乱数ノイズを最適化し、入力データを再生成する。
  • 再構成データ上で、温度付き活性化をラベルとして用いて教師ネットワークの蒸留を行う(知識蒸馏)。
  • 異なる活性化レコード戦略を試す: トップレイヤー統計、全レイヤー統計、スペクトル(グラフフーリエ)手法。
  • 再構成時にドロップアウトを凍結して層間のダイナミクスを保持することもある。
  • MNIST 全結合モデル、MNIST LeNet-5、AlexNet を用いた CelebA を含むデータセットとモデルファミリを跨いだ性能を評価する。

実験結果

リサーチクエスチョン

  • RQ1元の訓練データにアクセスできない状態で、活性化メタデータのみを用いて事前学習済みモデルを圧縮できるか。
  • RQ2異なる活性化レコード戦略が再構成品質と蒸留精度にどう影響するか。
  • RQ3データフリーディスティレーションにおける単純統計、全レイヤー、スペクトル活性化表現のトレードオフは何か。
  • RQ4データフリーディスティレーションは大規模データセットやアーキテクチャへどのようにスケールするか。
  • RQ5再構成時に層間ダイナミクスを最もよく保持するメタデータはどれか。

主な発見

  • トップレイヤー統計だけで精度は控えめになる(例:MNIST の fully connected 教師で 68.75%)。
  • 全レイヤー統計は精度を向上させる(例:MNIST FC で 76.38%、MNIST の LeNet-5 完全再構成で 85.61%)。
  • 全レイヤースペクトルおよびレイヤー対スペクトル法が最も高い精度を達成(例:MNIST FC で 89.41% と 91.24%、MNIST LeNet-5 half で 90.28% と 92.47%)。
  • CelebA の実験では、データフリーディスティレーションが一部設定でベースラインに近づくか上回ることを示す(例:AlexNet-half with All-Layers Spectral 77.56%、Layer-Pairs Spectral 76.94%)。
  • 本手法は大規模データセットとモデルへスケールし、データ公開が制約される環境での圧縮の実用性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。