[論文レビュー] EMP-SSL: Towards Self-Supervised Learning in One Training Epoch
EMP-SSL は extreme multi-patch 増強を用いることで自己教師あり学習を大幅に高速化し、1エポックで競争力のある結果を達成し、高い転移性を示します。
Recently, self-supervised learning (SSL) has achieved tremendous success in learning image representation. Despite the empirical success, most self-supervised learning methods are rather "inefficient" learners, typically taking hundreds of training epochs to fully converge. In this work, we show that the key towards efficient self-supervised learning is to increase the number of crops from each image instance. Leveraging one of the state-of-the-art SSL method, we introduce a simplistic form of self-supervised learning method called Extreme-Multi-Patch Self-Supervised-Learning (EMP-SSL) that does not rely on many heuristic techniques for SSL such as weight sharing between the branches, feature-wise normalization, output quantization, and stop gradient, etc, and reduces the training epochs by two orders of magnitude. We show that the proposed method is able to converge to 85.1% on CIFAR-10, 58.5% on CIFAR-100, 38.1% on Tiny ImageNet and 58.5% on ImageNet-100 in just one epoch. Furthermore, the proposed method achieves 91.5% on CIFAR-10, 70.1% on CIFAR-100, 51.5% on Tiny ImageNet and 78.9% on ImageNet-100 with linear probing in less than ten training epochs. In addition, we show that EMP-SSL shows significantly better transferability to out-of-domain datasets compared to baseline SSL methods. We will release the code in https://github.com/tsb0601/EMP-SSL.
研究の動機と目的
- 自己教師付き学習(SSL)における学習エポック数を削減する動機づけと、性能を犠牲にせずに実現すること。
- 画像あたりのパッチ数を増やすことが SSL の収束と表現品質を改善するかを調査する。
- パッチ共起学習に基づく、過度にエンジニアリングされていないシンプルな SSL フレームワークを提案する。
- さまざまなサイズのデータセットに対する方法のスケーラビリティと転移性を評価する。
提案手法
- 各画像を多数の固定サイズの重なりパッチに切り出す。
- 各パッチに標準的なデータ拡張を適用し、パッチをエンコーダ F に通して表現 h_i と射影 z_i を得る。
- 崩壊を防ぐために TCR(Total Coding Rate)に基づく共分散正則化を使用する:R(Z)=½ log det(I + (d/(b ε^2)) ZZ^T)。
- パッチ共起学習を促進するため、平均 TCR を最大化し、同じ画像からの各パッチ表現と平均表現との距離を最小化する: max (1/n) Σ_i [R(Z_i) + λ D(Z_i, Z̄)]。
- D は個別パッチ表現と平均 Z̄ とのコサイン類似度に基づく距離である;教師信号はシンプルなまま(モメンタムエンコーダ、ストップグラデ等はなし)。
- パッチ埋め込みを平均化して画像表現とし、下流の線形評価に用いるバグ・オブ・フィーチャー表現を採用する。
実験結果
リサーチクエスチョン
- RQ1パッチの粒度を高めることで自己教師あり学習は急速に収束(1エポックの学習でも可能)できるか?
- RQ2多数のパッチでパッチ共起学習を行うと、最先端の SSL 手法と競合する表現を得られるか?
- RQ3標準ベンチマーク(CIFAR-10/100、Tiny ImageNet、ImageNet-100)で、単一エポックの訓練と線形プロービングでの性能はどうなるか?
- RQ4パッチ数 n の影響は収束と性能にどう現れるか?
- RQ5ベースライン SSL 手法と比較して、外部ドメインデータへの転移性は改善されるか?
主な発見
| Methods | CIFAR-10 (1 Epoch) | CIFAR-100 (1 Epoch) | Tiny ImageNet (1 Epoch) | ImageNet-100 (1 Epoch) |
|---|---|---|---|---|
| SimCLR | 0.910 | 0.662 | 0.488 | 0.776 |
| BYOL | 0.926 | 0.708 | 0.510 | 0.802 |
| VICReg | 0.921 | 0.685 | - | 0.792 |
| SwAV | 0.923 | 0.658 | - | 0.740 |
| ReSSL | 0.914 | 0.674 | - | 0.769 |
| EMP-SSL (1 Epoch) | 0.851 | 0.585 | 0.381 | 0.585 |
- EMP-SSL は1エポックで CIFAR-10 85.1%、CIFAR-100 58.5%、Tiny ImageNet 38.1%、ImageNet-100 58.5% を達成。
- 線形プロービングと ResNet-18 で、CIFAR-10 91.5%、CIFAR-100 70.1%、Tiny ImageNet 51.5%、ImageNet-100 78.9% を10未満のエポックで達成。
- SOTA SSL 手法と比較して、2桁の速さで収束(多くの場合 CIFAR データセットで 5–10 エポック以内)。
- アブレーションではパッチ数を増やすと性能が向上し、パッチ共起学習が効率性の鍵であることを示す。
- EMP-SSL は外部ドメインデータへの転移性でベースライン SSL 手法より顕著に優れている(例:CIFAR-10→CIFAR-100 および CIFAR-100→CIFAR-10)。
- 時間効率の分析は、特にパッチ数を多くした場合、CIFAR-10 および CIFAR-100 で実時間を短くしてターゲット精度に到達できることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。