QUICK REVIEW

[論文レビュー] SEED: Self-supervised Distillation For Visual Representation

Zhiyuan Fang, Jianfeng Wang|arXiv (Cornell University)|Jan 12, 2021

Domain Adaptation and Few-Shot Learning参考文献 58被引用数 74

ひとこと要約

SEED は大規模な SSL 教師を訓練し、その表現をラベルなしの小さな学生モデルへ蒸留する。これにより ImageNet そしてそれ以上で小型モデルの性能が劇的に向上する。

ABSTRACT

This paper is concerned with self-supervised learning for small models. The problem is motivated by our empirical studies that while the widely used contrastive self-supervised learning method has shown great progress on large model training, it does not work well for small models. To address this problem, we propose a new learning paradigm, named SElf-SupErvised Distillation (SEED), where we leverage a larger network (as Teacher) to transfer its representational knowledge into a smaller architecture (as Student) in a self-supervised fashion. Instead of directly learning from unlabeled data, we train a student encoder to mimic the similarity score distribution inferred by a teacher over a set of instances. We show that SEED dramatically boosts the performance of small networks on downstream tasks. Compared with self-supervised baselines, SEED improves the top-1 accuracy from 42.2% to 67.6% on EfficientNet-B0 and from 36.3% to 68.2% on MobileNet-v3-Large on the ImageNet-1k dataset.

研究の動機と目的

既存の SSL 手法がコンパクトなアーキテクチャで低性能であることを踏まえ、小型モデル向けの自己教師付き学習の改善を動機づける。
大規模な SSL 教師からラベルなしで小さな学生へ知識を移す自己教師付き蒸留パラダイム（SEED）を導入する。
SEED が小型モデルの下流タスクおよびドメイン全体で実質的な向上を生むことを示す。
さまざまな教師の事前学習手法と蒸留戦略に対する SEED の頑健性を示す。

提案手法

SSL によって得られた凍結済みの事前学習済み教師エンコーダを維持する（例：MoCo-V2、SimCLR、SWAV）。
動的なデータサンプルのキューにおける教師のインスタンス類似性分布を模倣するよう、小さな学生エンコーダを訓練する。
l2正規化された埋め込みと温度パラメータを用いて、キュー上の確率分布を教師と学生の類似性から構築する。
知識を蒸留するために、教師と学生の類似性分布間のクロスエントロピーを最小化する。
現在のバッチの埋め込みと教師の現在の埋め込みを含むキューを用いて、正負の対比を提供する。
SEED が SSL の事前学習手法に依存せず、さまざまな教師/学生アーキテクチャやハイパーパラメータを使用できることを示す。

実験結果

リサーチクエスチョン

RQ1大規模な SSL 教師からの自己教師付き蒸留は、ラベルなしで小型モデルの表現品質を向上させることができるか。
RQ2SEED は異なる教師の事前学習手法や小型学生アーキテクチャでどのように性能を発揮するか。
RQ3SEED 蒸留後、小型モデルで達成できる下流タスクの利得（分類、検出、セグメンテーション）は何か。
RQ4ハイパーパラメータ（キューサイズ、温度など）は SEED の性能にどのように影響するか。

主な発見

SEED は MoCo-V2 ベースラインと比較して、小型モデルの線形および半教師付き ImageNet パフォーマンスを大幅に向上させる（例：MobileNet-V3-Large、EfficientNet-B0）。
より深い/広い教師（例：ResNet-152 または ResNet-50×2）を使用すると、より浅い教師よりも学生に対してより大きな利得が得られる。
SEED は CIFAR-10/100 および SUN-397 で転移利得を達成し、より小さなバックボーンを初期化する際には VOC、COCO の物体検出/セグメンテーションのベンチマークも向上させる。
SEED は複数の SSL事前学習手法（MoCo-V2、SimCLR、SWAV など）と互換性があり、いくつかの蒸留戦略を上回ることができ、単純な L2 距離と SEED の派生で良好な性能を示す。
ハイパーパラメータの選択（教師の温度 τ^T）とキューサイズ K が性能に影響を与え、ImageNet や CIFAR データセットでは低い τ^T がより良い結果をもたらすことが多い。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。