[論文レビュー] Contrastive Learning with Stronger Augmentations
CLSAを紹介する。弱い増強ビューの分布に基づく分布的乖離フレームワークを用い、強い増強クエリの検索を監督することで対比学習の性能を向上させる。
Representation learning has significantly been developed with the advance of contrastive learning methods. Most of those methods have benefited from various data augmentations that are carefully designated to maintain their identities so that the images transformed from the same instance can still be retrieved. However, those carefully designed transformations limited us to further explore the novel patterns exposed by other transformations. Meanwhile, as found in our experiments, the strong augmentations distorted the images' structures, resulting in difficult retrieval. Thus, we propose a general framework called Contrastive Learning with Stronger Augmentations~(CLSA) to complement current contrastive learning approaches. Here, the distribution divergence between the weakly and strongly augmented images over the representation bank is adopted to supervise the retrieval of strongly augmented queries from a pool of instances. Experiments on the ImageNet dataset and downstream datasets showed the information from the strongly augmented images can significantly boost the performance. For example, CLSA achieves top-1 accuracy of 76.2% on ImageNet with a standard ResNet-50 architecture with a single-layer classifier fine-tuned, which is almost the same level as 76.5% of supervised results. The code and pre-trained models are available in https://github.com/maple-research-lab/CLSA.
研究の動機と目的
- 対照学習において慎重に設計された変換を超える、より強力でランダムなデータ増強の探索を動機づける。
- 埋め込みの厳密な等価性を強制せず、強く増強されたクエリの検索を監督する分布的乖離最小化(DDM)損失を提案する。
- DDMと既存の対比損失を組み合わせると、弱いビューと強いビューの表現が改善されることを示す。
- CLSAがMoCo、SimCLR、BYOLなどのさまざまな対比フレームワークと互換性をもち、下流タスクに与える影響を示す。
提案手法
- 14種類の増強のランダムな組み合わせとして、非常に強い増強Sを導入する。
- 弱い増強ペア(T',T)と強い増強Sを定義し、それぞれの埋め込みz', z, z''を持つ弱いビューと強いビューを生成する。
- メモリーバンクのネガティブに対する条件付き分布p(z_j|z')を、弱いビューと強いビューの両方について計算する(式3と式5)。
- p(.|z')とp(.|z'')の乖離を最小化する分布的乖離損失L_Dを定式化する(式6)。
- 標準的な対比損失L_CとL_Dを組み合わせる: L = L_C + beta * L_D(実験ではbeta=1)でエンコーダを訓練する。
- L_Dがベース損失に依存せず、任意の同時対比損失ベースの手法と統合可能であることを示す。
- 強い増強の実装詳細と、分布的監督の必要性を裏付けるアブレーション研究を提供する。

実験結果
リサーチクエスチョン
- RQ1より強力でランダムに組み合わされた増強は、自己教師付き表現を崩壊させることなく改善できるか?
- RQ2弱いビューと強いビュー間の分布的監督信号は、単純な一対一のマッチングよりも強い増強を活用できるのか?
- RQ3CLSAは既存の対比損失とどう相互作用し、ImageNet線形評価を超えた下流タスクにどのような影響を与えるのか?
- RQ4分布的損失と増強タイプの選択のアブレーション効果はどの程度か?
主な発見
| 手法 | Top-1 |
|---|---|
| InstDisc | 54.0 |
| LocalAgg | 58.8 |
| MoCo | 60.8 |
| SimCLR | 61.9 |
| CPC v2 | 63.8 |
| PCL | 65.9 |
| MoCo v2 | 67.5 |
| InfoMin Aug | 70.1 |
| SWAV (Multi-Crop) | 72.7 |
| CLSA | 69.4 |
| CLSA* (Multi-Crop) | 73.3 |
| Supervised | 76.5 |
- CLSAはResNet-50を用いたImageNetで強力な結果を達成し、線形評価でTop-1が76.2%となり、監視付きの76.5%に近い。
- VOC07で、CLSA事前学習は線形分類器でTop-1が93.6%を達成し、前例の88.9%を上回る。
- COCO物体検出では、小型物体のAP_Sが20.8%から24.4%へ向上。
- アブレーション研究で、より強力な増強を素朴に用いると性能が低下することが示され、分布的ガイダンスの必要性を裏付ける。
- CLSAは既存の対比手法(MoCo、SimCLR、BYOL)に分布的損失を組み込むことで性能を大幅に向上させる可能性がある。
- このアプローチは、弱く増強された画像だけでなく、強く増強された画像の表現も改善する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。