[論文レビュー] Barlow Twins: Self-Supervised Learning via Redundancy Reduction
Barlow Twins は、双子埋め込みの成分を非相関化しつつ不変性を課す自己教師付き目的を導入し、大規模バッチや非対称なネットワーク設計がなくても効果的な表現を実現します。ImageNet の複数のベンチマークで、特に高次元の埋め込みで、現_state_of_the_art と同等かそれを上回ります。
Self-supervised learning (SSL) is rapidly closing the gap with supervised methods on large computer vision benchmarks. A successful approach to SSL is to learn embeddings which are invariant to distortions of the input sample. However, a recurring issue with this approach is the existence of trivial constant solutions. Most current methods avoid such solutions by careful implementation details. We propose an objective function that naturally avoids collapse by measuring the cross-correlation matrix between the outputs of two identical networks fed with distorted versions of a sample, and making it as close to the identity matrix as possible. This causes the embedding vectors of distorted versions of a sample to be similar, while minimizing the redundancy between the components of these vectors. The method is called Barlow Twins, owing to neuroscientist H. Barlow's redundancy-reduction principle applied to a pair of identical networks. Barlow Twins does not require large batches nor asymmetry between the network twins such as a predictor network, gradient stopping, or a moving average on the weight updates. Intriguingly it benefits from very high-dimensional output vectors. Barlow Twins outperforms previous methods on ImageNet for semi-supervised classification in the low-data regime, and is on par with current state of the art for ImageNet classification with a linear classifier head, and for transfer tasks of classification and object detection.
研究の動機と目的
- 注釈なしで視覚表現のための自己教師付き学習(SSL)を動機づける。
- 非対称性を必要とせずに崩壊解を回避する原理的な目的を提案する。
- 不変性を保ちながら埋め込み成分を非相関化するために冗長性削減を活用する。
- バッチサイズへの頑健性を実証し、高次元埋め込みの利点を探る。
提案手法
- 各画像の2つのゆがんだビューを計算し、同一のネットワークに通す。
- 双子の出力間のクロス相関行列を作成し、それを単位行列に近づけるようにする。
- 損失を不変性項(対角成分)と冗長性削減項(非対角成分)に分解し、トレードオフパラメータ lambda を設ける。
- ResNet-50 エンコーダと3層の8192次元プロジェクタを用い、バッチ方向に埋め込みを正規化する。大規模 ImageNet 事前学習では LARS で最適化。
- バッチサイズが 256 でも動作し、高次元埋め込みの恩恵を受けることを示す。
実験結果
リサーチクエスチョン
- RQ1対称な双子ネットワークの単純な目的が、非対称性や大きなバッチ要件を必要とせず崩壊を回避できるだろうか?
- RQ2冗長性削減は埋め込みの非相関化と下流転送性能にどう影響するか?
- RQ3埋め込み次元数とプロジェクタの深さがSSLの品質に与える影響は?
- RQ4InfoNCE ベースの手法と比較して、バッチサイズや拡張選択に対する頑健性は?
主な発見
| 方法 | Top-1 | Top-5 |
|---|---|---|
| Supervised | 76.5 | |
| MoCo | 60.6 | |
| PIRL | 63.6 | - |
| SimCLR | 69.3 | 89.0 |
| MoCo v2 | 71.1 | 90.1 |
| SimSiam | 71.3 | - |
| SwAV (w/o multi-crop) | 71.8 | - |
| BYOL | 74.3 | 91.6 |
| SwAV | 75.3 | - |
| Barlow Twins (ours) | 73.2 | 91.0 |
- Barlow Twins は ResNet-50 エンコーダーで競争力のある ImageNet 線形 Top-1 精度(73.2%)を達成。
- 1%未満および10%のラベル設定で、本法は半教師付きImageNetで競合するSSL手法と同等か若干上回る。
- Places-205、VOC07、iNaturalist18 で線形固定表現で競争力のある転移性能を示す。
- 物体検出とインスタンスセグメンテーションでは、Barlow Twins は複数のSOTA法と同等または上回る。
- アブレーション実験は、不変性項と冗長性項の両方が必要であることを示し、方法は小さなバッチサイズにも頑健で、高次元埋め込みの利点を享受する。
- 他の一部のSSL手法とは異なり、プロジェクタの次元を増やすと性能が引き続き向上する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。