Skip to main content
QUICK REVIEW

[論文レビュー] CompRess: Self-Supervised Learning by Compressing Representations

Soroush Abbasi Koohpayegani, Ajinkya Tejankar|arXiv (Cornell University)|Oct 28, 2020
Domain Adaptation and Few-Shot Learning参考文献 60被引用数 24
ひとこと要約

本稿では、自己教師あり教師モデル(例:SimCLR ResNet-50x4)の埋め込み空間におけるデータポイント間の相対的類似度順位を模倣することで、大規模な事前学習済み自己教師あり教師モデルから小規模な学生モデルへ知識を転送する自己教師ありモデル圧縮手法CompRessを提案する。この手法はImageNetで最先端の性能を達成し、圧縮されたAlexNetが線形評価(59.0% 対 56.5%)および最近傍分類評価(50.7% 対 41.4%)において、完全に教師ありで学習されたAlexNetを上回り、自己教師ありモデルがImageNet分類タスク自体でその教師あり対応モデルを上回ったのは初めてである。

ABSTRACT

Self-supervised learning aims to learn good representations with unlabeled data. Recent works have shown that larger models benefit more from self-supervised learning than smaller models. As a result, the gap between supervised and self-supervised learning has been greatly reduced for larger models. In this work, instead of designing a new pseudo task for self-supervised learning, we develop a model compression method to compress an already learned, deep self-supervised model (teacher) to a smaller one (student). We train the student model so that it mimics the relative similarity between the data points in the teacher's embedding space. For AlexNet, our method outperforms all previous methods including the fully supervised model on ImageNet linear evaluation (59.0% compared to 56.5%) and on nearest neighbor evaluation (50.7% compared to 41.4%). To the best of our knowledge, this is the first time a self-supervised AlexNet has outperformed supervised one on ImageNet classification. Our code is available here: https://github.com/UMBCvision/CompRess

研究の動機と目的

  • ラベルを必要とせずに、大規模な自己教師あり教師モデルから小規模な学生モデルへ知識を転送するモデル圧縮手法の開発。
  • より深い自己教師あり教師モデルの知識を活用することで、ImageNet分類などの下流タスクにおける小規模で効率的なモデルの性能を向上させること。
  • データアップロードを必要とせず、プライバシーを守るオンデバイス推論を可能にする、一般化性能の高い自己教師ありモデルの圧縮。

提案手法

  • 学生モデルは、最近傍距離から導出されたソフト確率分布を用いて、教師の埋め込み空間におけるデータポイント間の相対的類似度順位を模倣するように訓練される。
  • 各クエリ画像に対して、教師はメモリバンク内のすべてのアンカー点との距離を計算し、温度調整付きソフトマックスを用いて確率分布に変換し、この分布を distillation のターゲットとして使用する。
  • 'Ours-2q'バージョンでは、メモリバンクに対してモーメンタムベースの更新を採用し、安定性と性能が向上する。
  • 学生モデルは、自身の類似度分布と教師のソフトターゲット分布との間の交差エントロピー損失を用いて訓練される。
  • 本手法は直接的な対照学習やハードな正例/負例ペアの監督を避ける代わりに、類似・不類似サンプルの相対的順位を保持することに焦点を当てる。
  • ハイパーパramータチューニングなしに、線形評価、最近傍分類、クラスタリング整合性の評価プロトコルを用いて評価される。

実験結果

リサーチクエスチョン

  • RQ1大規模な自己教師あり教師モデルからの知識蒸留は、ImageNet分類などの下流タスクにおける小規模な学生モデルの性能を向上させることができるか?
  • RQ2同じデータで学習された小規模モデルに教師あり損失を適用するのと比較して、自己教師あり教師モデルを圧縮することで、より良い一般化性能が得られるか?
  • RQ3ImageNet分類タスク自体を評価した際に、自己教師あり学生モデルが、同じアーキテクチャの完全に教師ありモデルを上回ることができるか?
  • RQ4温度やメモリバンクサイズなどのハイパーパramータは、圧縮された学生モデルの性能にどのように影響するか?
  • RQ5本圧縮設定において、モーメンタム更新メカニズムは安定した知識転送に不可欠か?

主な発見

  • CompRess手法は、AlexNet学生モデルを用いてImageNetの線形評価で59.0%のトップ1精度を達成し、完全に教師ありで学習されたAlexNet(56.5%)を上回った。
  • 最近傍分類評価では、圧縮されたAlexNetが50.7%の精度に達し、教師ありベースライン(41.4%)を著しく上回った。
  • SimCLR ResNet-50x4教師モデルからの圧縮では、線形評価で59.3%、最近傍分類評価で50.7%の精度を達成し、最先端の性能を示した。
  • アブレーションスタディの結果、小さな温度(例:0.1)と大きなメモリバンクサイズが、局所的近傍構造に注目することで性能向上をもたらすことが分かった。
  • 教師の特徴量をキャッシュすることで、トレーニング時間を約3倍短縮でき、最近傍分類精度はわずか0.4%低下にとどまり、大規模トレーニングにおいて実用的であることが示された。
  • メモリバンクの更新におけるモーメンタムの削除に対しても、性能低下が最小限に抑えられ、本設定ではモーメンタムが必須でないことが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。