QUICK REVIEW

[論文レビュー] Self-supervised Knowledge Distillation for Few-shot Learning

Jathushan Rajasegaran, Salman Khan|arXiv (Cornell University)|Jun 17, 2020

Domain Adaptation and Few-Shot Learning参考文献 49被引用数 70

ひとこと要約

2段階の自己 supervisd フレームワーク（Gen-0とGen-1）は、まず自己監視を通じて等価出力多様体を学習し、次に蒸留して生徒モデルに多様体を保持しつつ識別性を高め、few-shot 学習を改善します。

ABSTRACT

Real-world contains an overwhelmingly large number of object classes, learning all of which at once is infeasible. Few shot learning is a promising learning paradigm due to its ability to learn out of order distributions quickly with only a few samples. Recent works [7, 41] show that simply learning a good feature embedding can outperform more sophisticated meta-learning and metric learning algorithms for few-shot learning. In this paper, we propose a simple approach to improve the representation capacity of deep neural networks for few-shot learning tasks. We follow a two-stage learning process: First, we train a neural network to maximize the entropy of the feature embedding, thus creating an optimal output manifold using a self-supervised auxiliary loss. In the second stage, we minimize the entropy on feature embedding by bringing self-supervised twins together, while constraining the manifold with student-teacher distillation. Our experiments show that, even in the first stage, self-supervision can outperform current state-of-the-art methods, with further gains achieved by our second stage distillation process. Our codes are available at: https://github.com/brjathu/SKD.

研究の動機と目的

不変表現より出力空間の多様性に焦点を当てることで、few-shot 学習の改善を動機づける。
よりリッチな出力多様体を学習するために、2段階の自己 supervisd 知識蒸留フレームワーク（Gen-0とGen-1）を提案する。
自己監視のみで従来のSOTAを上回ることができ、蒸留によってさらに利得が得られることを示す。
標準的なFSLベンチマーク（miniImageNet、tieredImageNet、CIFAR-FS、FC100）において強力な経験的利得を示す。

提案手法

Gen-0 は入力の回転版で訓練し、自己監視ヘッドを用いてクラスラベルと回転角の両方を予測することで等価な出力多様体を学習する。
Gen-0 の損失は標準のクロスエントロピーと回転予測に基づく自己監視損失を組み合わせ、ロジットの多様性を促す。
Gen-1 は教師（Gen-0）を凍結し、元の入力での教師の出力を生徒が再現するよう訓練する一方、回転ペアを出力空間で近づける蒸留損失とロジットの補助的なL2損失を用いて、出力空間を整合させる。
知識蒸留は、教師と生徒の出力間の KL 発散（温度 T）を用いて分布を整合させる。
元の入力と回転入力の生徒のロジット間のL2損失は、クラス内識別性をさらに高める。
回転ベースの自己監視は、分類層の後に追加の回転ヘッドを取り付けることで実装され、クラスと変換情報の同時エンコードを可能にする。
訓練は2段階で行われ、Gen-0 が多様体の推定に、Gen-1 が多様体を保持する蒸留と識別に焦点を当てる。

実験結果

リサーチクエスチョン

RQ1自己監視学習は、限られたラベルでFSLの性能を改善する、より豊かで等価な出力多様体を誘導できるか。
RQ2自己監視と蒸留を活用した2段階のGen-0/Gen-1フレームワークは、単一段階のSSLや標準的なFSL手法より改善をもたらすか。
RQ3回転ベースの自己監視と蒸留は、FSL埋め込みにおけるクラス内の多様性とクラス間の識別性にどのように寄与するか。
RQ4共通のFSLベンチマーク（miniImageNet、tieredImageNet、CIFAR-FS、FC100）でのSKDの実証的利得はどの程度か。

主な発見

Gen-0 単独でいくつかの設定で従来のSOTAを上回り、出力空間における自己監視による多様性の価値を示している。
Gen-1 は知識蒸留と埋め込み近接制約を通じて性能をさらに向上させ、Gen-0 より追加の利得を生む。
miniImageNet では、Gen-0 は 5-way タスクで 1-shot が 65.93%、5-shot が 83.15% を達成；Gen-1 は 1-shot が 67.04%、5-shot が 83.54% を達成。
CIFAR-FS では、Gen-0 が 1-shot 74.5%、5-shot 88.0%、Gen-1 が 1-shot 76.9%、5-shot 88.9%。
データセット全体で、SKD 系は RFS-simple および関連ベースラインを一貫して上回り、SKD-GEN1 がしばしば最高結果を提供する。
本手法は論文に記載のとおり、4つのベンチマーク（miniImageNet、tieredImageNet、CIFAR-FS、FC100）で競争力のある、または最先端の精度を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。