Skip to main content
QUICK REVIEW

[論文レビュー] Contrastive Model Inversion for Data-Free Knowledge Distillation

Gongfan Fang, Jie Song|arXiv (Cornell University)|May 18, 2021
Domain Adaptation and Few-Shot Learning参考文献 30被引用数 31
ひとこと要約

CMI は Contrastive Model Inversion を導入し、データフリー知識蒸留におけるモード崩壊を緩和するため、対照的 objective を用いてデータの多様性を明示的にモデル化し、下流の KD パフォーマンスを向上させる。

ABSTRACT

Model inversion, whose goal is to recover training data from a pre-trained model, has been recently proved feasible. However, existing inversion methods usually suffer from the mode collapse problem, where the synthesized instances are highly similar to each other and thus show limited effectiveness for downstream tasks, such as knowledge distillation. In this paper, we propose Contrastive Model Inversion~(CMI), where the data diversity is explicitly modeled as an optimizable objective, to alleviate the mode collapse issue. Our main observation is that, under the constraint of the same amount of data, higher data diversity usually indicates stronger instance discrimination. To this end, we introduce in CMI a contrastive learning objective that encourages the synthesizing instances to be distinguishable from the already synthesized ones in previous batches. Experiments of pre-trained models on CIFAR-10, CIFAR-100, and Tiny-ImageNet demonstrate that CMI not only generates more visually plausible instances than the state of the arts, but also achieves significantly superior performance when the generated data are used for knowledge distillation. Code is available at \url{https://github.com/zju-vipa/DataFree}.

研究の動機と目的

  • 元の訓練データが利用できない場合のデータフリー知識蒸留を動機付ける。
  • インスタンス識別フレームワークにおけるデータの多様性を定義する。
  • 合成サンプル間の多様性を促す対比学習目的を開発する。
  • ケースバイケースのデータ inversion のために生成器、メモリーバンク、インスタンス識別器を統合する。
  • 標準ベンチマークで合成データの品質と KD パフォーマンスの改善を実証する。

提案手法

  • データの多様性を、データ対の期待されるインスタンス識別距離として定義する。
  • 固定老師 f_t の上に学習可能なインスタンス識別器 h を用いて表現間のコサイン類似度を計算する。
  • 合成とメモリーバンクのサンプル間の特徴を識別する独自性を最大化する対照的損失 L_cr を採用する。
  • 現実性と実データとの分布的類似性を維持する従来の inversion 損失 L_inv を組み込む。
  • 時刻ごとに生成器 g を再初期化し、潜在コード z とパラメータを最適化するケースバイケースの合成を実施し、多様性のためにメモリーバンク B を活用する。
  • L_cr を L_inv と結合した結合目的関数を用い、必要に応じて境界サンプルを強調する判定敵対蒸留項 L_d-adv を含める。

実験結果

リサーチクエスチョン

  • RQ1データフリー KD において、合成サンプルの多様性を促進する対照的目的はモード崩壊を緩和できるか。
  • RQ2インスタンス識別を通じてデータの多様性を明示的にモデル化することで、合成データを用いた KD パフォーマンスが改善されるか。
  • RQ3CMI は現実性と多様性のバランスをどのようにとり、異なるデータセットやアーキテクチャでKD に有用なデータを生成するか。
  • RQ4生成器の役割、メモリーバンク、インスタンス識別器といった設計選択はデータの多様性と KD の成果にどのように影響するか。

主な発見

データセットTeacherStudentAccuracyT.S.DAFLZSKTADIDFQLS-GDFD私たちの手法
CIFAR-10resnet-34resnet-1895.7095.2092.2293.32*93.2694.6195.0294.84
CIFAR-10 (second model)vgg-11resnet-1892.2595.2081.10*89.46*90.3690.84N/A91.13
Tiny-ImageNetresnet-34resnet-1866.4464.87N/AN/AN/A63.73N/A64.01
CIFAR-100resnet-34resnet-1878.0577.1074.4767.74*61.32*77.0177.0277.04
CIFAR-100vgg-11resnet-1871.3277.1057.29*34.72*54.13*68.32*N/A70.56
CIFAR-100wrn-40-2wrn-16-175.8365.3122.50*30.15*53.77*54.77*N/A57.91
CIFAR-100wrn-40-2wrn-40-175.8372.1934.66*29.73*61.33*61.92*N/A68.88
CIFAR-100wrn-40-2wrn-16-275.8373.5640.00*28.44*61.34*59.01*N/A68.75
  • CMI は強力なベースラインよりも視覚的に現実的で多様な合成データを生み出す。
  • CIFAR-10、CIFAR-100、Tiny-ImageNet で、CMI はいくつかのデータフリ手法と比較して優れた KD パフォーマンスを達成する。
  • アブレーション実験では、対照的損失または生成器を除去すると性能が低下し、インスタンス識別とピクセル正則化の重要性を浮き彫りにする。
  • 対照的ウェイト alpha_cr の値を大きくすると KD パフォーマンスとデータ分布品質(特に浅い特徴における FID の低下)が向上する。
  • 非線形のインスタンス識別器は、線形または識別器なしと比べて、合成データを用いた KD をサポートするうえで優れている。
  • メモリーバンクとケースバイケースの生成器合成を組み合わせたCMI は、複数の教師-生徒ペアを跨いで複数のベースラインを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。