QUICK REVIEW

[論文レビュー] EMP-SSL: Towards Self-Supervised Learning in One Training Epoch

Shengbang Tong, Yubei Chen|arXiv (Cornell University)|Apr 8, 2023

Domain Adaptation and Few-Shot Learning被引用数 11

ひとこと要約

EMP-SSL は extreme multi-patch 増強を用いることで自己教師あり学習を大幅に高速化し、1エポックで競争力のある結果を達成し、高い転移性を示します。

ABSTRACT

Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather "inefficient" learners, typically taking hundreds of training epochs to fully converge. In this work, we show that the key towards efficient self-supervised learning is to increase the number of crops from each image instance. Leveraging one of the state-of-the-art SSL method, we introduce a simplistic form of self-supervised learning method called Extreme-Multi-Patch Self-Supervised-Learning (EMP-SSL) that does not rely on many heuristic techniques for SSL such as weight sharing between the branches, feature-wise normalization, output quantization, and stop gradient, etc, and reduces the training epochs by two orders of magnitude. We show that the proposed method is able to converge to 85.1% on CIFAR-10, 58.5% on CIFAR-100, 38.1% on Tiny ImageNet and 58.5% on ImageNet-100 in just one epoch. Furthermore, the proposed method achieves 91.5% on CIFAR-10, 70.1% on CIFAR-100, 51.5% on Tiny ImageNet and 78.9% on ImageNet-100 with linear probing in less than ten training epochs. In addition, we show that EMP-SSL shows significantly better transferability to out-of-domain datasets compared to baseline SSL methods. We will release the code in https://github.com/tsb0601/EMP-SSL.

研究の動機と目的

自己教師付き学習（SSL）における学習エポック数を削減する動機づけと、性能を犠牲にせずに実現すること。
画像あたりのパッチ数を増やすことが SSL の収束と表現品質を改善するかを調査する。
パッチ共起学習に基づく、過度にエンジニアリングされていないシンプルな SSL フレームワークを提案する。
さまざまなサイズのデータセットに対する方法のスケーラビリティと転移性を評価する。

提案手法

各画像を多数の固定サイズの重なりパッチに切り出す。
各パッチに標準的なデータ拡張を適用し、パッチをエンコーダ F に通して表現 h_i と射影 z_i を得る。
崩壊を防ぐために TCR（Total Coding Rate）に基づく共分散正則化を使用する：R(Z)=½ log det(I + (d/(b ε^2)) ZZ^T)。
パッチ共起学習を促進するため、平均 TCR を最大化し、同じ画像からの各パッチ表現と平均表現との距離を最小化する： max (1/n) Σ_i [R(Z_i) + λ D(Z_i, Z̄)]。
D は個別パッチ表現と平均 Z̄ とのコサイン類似度に基づく距離である；教師信号はシンプルなまま（モメンタムエンコーダ、ストップグラデ等はなし）。
パッチ埋め込みを平均化して画像表現とし、下流の線形評価に用いるバグ・オブ・フィーチャー表現を採用する。

実験結果

リサーチクエスチョン

RQ1パッチの粒度を高めることで自己教師あり学習は急速に収束（1エポックの学習でも可能）できるか？
RQ2多数のパッチでパッチ共起学習を行うと、最先端の SSL 手法と競合する表現を得られるか？
RQ3標準ベンチマーク（CIFAR-10/100、Tiny ImageNet、ImageNet-100）で、単一エポックの訓練と線形プロービングでの性能はどうなるか？
RQ4パッチ数 n の影響は収束と性能にどう現れるか？
RQ5ベースライン SSL 手法と比較して、外部ドメインデータへの転移性は改善されるか？

主な発見

Methods	CIFAR-10 (1 Epoch)	CIFAR-100 (1 Epoch)	Tiny ImageNet (1 Epoch)	ImageNet-100 (1 Epoch)
SimCLR	0.910	0.662	0.488	0.776
BYOL	0.926	0.708	0.510	0.802
VICReg	0.921	0.685	-	0.792
SwAV	0.923	0.658	-	0.740
ReSSL	0.914	0.674	-	0.769
EMP-SSL (1 Epoch)	0.851	0.585	0.381	0.585

EMP-SSL は1エポックで CIFAR-10 85.1%、CIFAR-100 58.5%、Tiny ImageNet 38.1%、ImageNet-100 58.5% を達成。
線形プロービングと ResNet-18 で、CIFAR-10 91.5%、CIFAR-100 70.1%、Tiny ImageNet 51.5%、ImageNet-100 78.9% を10未満のエポックで達成。
SOTA SSL 手法と比較して、2桁の速さで収束（多くの場合 CIFAR データセットで 5–10 エポック以内）。
アブレーションではパッチ数を増やすと性能が向上し、パッチ共起学習が効率性の鍵であることを示す。
EMP-SSL は外部ドメインデータへの転移性でベースライン SSL 手法より顕著に優れている（例：CIFAR-10→CIFAR-100 および CIFAR-100→CIFAR-10）。
時間効率の分析は、特にパッチ数を多くした場合、CIFAR-10 および CIFAR-100 で実時間を短くしてターゲット精度に到達できることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。