Skip to main content
QUICK REVIEW

[論文レビュー] EMP-SSL: Towards Self-Supervised Learning in One Training Epoch

Shengbang Tong, Yubei Chen|arXiv (Cornell University)|Apr 8, 2023
Domain Adaptation and Few-Shot Learning被引用数 11
ひとこと要約

EMP-SSL は extreme multi-patch 増強を用いることで自己教師あり学習を大幅に高速化し、1エポックで競争力のある結果を達成し、高い転移性を示します。

ABSTRACT

Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather "inefficient" learners, typically taking hundreds of training epochs to fully converge. In this work, we show that the key towards efficient self-supervised learning is to increase the number of crops from each image instance. Leveraging one of the state-of-the-art SSL method, we introduce a simplistic form of self-supervised learning method called Extreme-Multi-Patch Self-Supervised-Learning (EMP-SSL) that does not rely on many heuristic techniques for SSL such as weight sharing between the branches, feature-wise normalization, output quantization, and stop gradient, etc, and reduces the training epochs by two orders of magnitude. We show that the proposed method is able to converge to 85.1% on CIFAR-10, 58.5% on CIFAR-100, 38.1% on Tiny ImageNet and 58.5% on ImageNet-100 in just one epoch. Furthermore, the proposed method achieves 91.5% on CIFAR-10, 70.1% on CIFAR-100, 51.5% on Tiny ImageNet and 78.9% on ImageNet-100 with linear probing in less than ten training epochs. In addition, we show that EMP-SSL shows significantly better transferability to out-of-domain datasets compared to baseline SSL methods. We will release the code in https://github.com/tsb0601/EMP-SSL.

研究の動機と目的

  • 自己教師付き学習(SSL)における学習エポック数を削減する動機づけと、性能を犠牲にせずに実現すること。
  • 画像あたりのパッチ数を増やすことが SSL の収束と表現品質を改善するかを調査する。
  • パッチ共起学習に基づく、過度にエンジニアリングされていないシンプルな SSL フレームワークを提案する。
  • さまざまなサイズのデータセットに対する方法のスケーラビリティと転移性を評価する。

提案手法

  • 各画像を多数の固定サイズの重なりパッチに切り出す。
  • 各パッチに標準的なデータ拡張を適用し、パッチをエンコーダ F に通して表現 h_i と射影 z_i を得る。
  • 崩壊を防ぐために TCR(Total Coding Rate)に基づく共分散正則化を使用する:R(Z)=½ log det(I + (d/(b ε^2)) ZZ^T)。
  • パッチ共起学習を促進するため、平均 TCR を最大化し、同じ画像からの各パッチ表現と平均表現との距離を最小化する: max (1/n) Σ_i [R(Z_i) + λ D(Z_i, Z̄)]。
  • D は個別パッチ表現と平均 Z̄ とのコサイン類似度に基づく距離である;教師信号はシンプルなまま(モメンタムエンコーダ、ストップグラデ等はなし)。
  • パッチ埋め込みを平均化して画像表現とし、下流の線形評価に用いるバグ・オブ・フィーチャー表現を採用する。

実験結果

リサーチクエスチョン

  • RQ1パッチの粒度を高めることで自己教師あり学習は急速に収束(1エポックの学習でも可能)できるか?
  • RQ2多数のパッチでパッチ共起学習を行うと、最先端の SSL 手法と競合する表現を得られるか?
  • RQ3標準ベンチマーク(CIFAR-10/100、Tiny ImageNet、ImageNet-100)で、単一エポックの訓練と線形プロービングでの性能はどうなるか?
  • RQ4パッチ数 n の影響は収束と性能にどう現れるか?
  • RQ5ベースライン SSL 手法と比較して、外部ドメインデータへの転移性は改善されるか?

主な発見

MethodsCIFAR-10 (1 Epoch)CIFAR-100 (1 Epoch)Tiny ImageNet (1 Epoch)ImageNet-100 (1 Epoch)
SimCLR0.9100.6620.4880.776
BYOL0.9260.7080.5100.802
VICReg0.9210.685-0.792
SwAV0.9230.658-0.740
ReSSL0.9140.674-0.769
EMP-SSL (1 Epoch)0.8510.5850.3810.585
  • EMP-SSL は1エポックで CIFAR-10 85.1%、CIFAR-100 58.5%、Tiny ImageNet 38.1%、ImageNet-100 58.5% を達成。
  • 線形プロービングと ResNet-18 で、CIFAR-10 91.5%、CIFAR-100 70.1%、Tiny ImageNet 51.5%、ImageNet-100 78.9% を10未満のエポックで達成。
  • SOTA SSL 手法と比較して、2桁の速さで収束(多くの場合 CIFAR データセットで 5–10 エポック以内)。
  • アブレーションではパッチ数を増やすと性能が向上し、パッチ共起学習が効率性の鍵であることを示す。
  • EMP-SSL は外部ドメインデータへの転移性でベースライン SSL 手法より顕著に優れている(例:CIFAR-10→CIFAR-100 および CIFAR-100→CIFAR-10)。
  • 時間効率の分析は、特にパッチ数を多くした場合、CIFAR-10 および CIFAR-100 で実時間を短くしてターゲット精度に到達できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。