[論文レビュー] Soft Neighbors are Positive Supporters in Contrastive Visual Representation Learning
SNCLR はコントラスト学習の自己教師あり学習において、候補近傍集合に対する cross-attention ベースの positiveness score を用いてソフトな近傍ポジティブを導入し、CNNおよび ViT エンコーダの表現を分類、検出、セグメンテーションタスクで向上させる。
Contrastive learning methods train visual encoders by comparing views from one instance to others. Typically, the views created from one instance are set as positive, while views from other instances are negative. This binary instance discrimination is studied extensively to improve feature representations in self-supervised learning. In this paper, we rethink the instance discrimination framework and find the binary instance labeling insufficient to measure correlations between different samples. For an intuitive example, given a random image instance, there may exist other images in a mini-batch whose content meanings are the same (i.e., belonging to the same category) or partially related (i.e., belonging to a similar category). How to treat the images that correlate similarly to the current image instance leaves an unexplored problem. We thus propose to support the current image by exploring other correlated instances (i.e., soft neighbors). We first carefully cultivate a candidate neighbor set, which will be further utilized to explore the highly-correlated instances. A cross-attention module is then introduced to predict the correlation score (denoted as positiveness) of other correlated instances with respect to the current one. The positiveness score quantitatively measures the positive support from each correlated instance, and is encoded into the objective for pretext training. To this end, our proposed method benefits in discriminating uncorrelated instances while absorbing correlated instances for SSL. We evaluate our soft neighbor contrastive learning method (SNCLR) on standard visual recognition benchmarks, including image classification, object detection, and instance segmentation. The state-of-the-art recognition performance shows that SNCLR is effective in improving feature representations from both ViT and CNN encoders.
研究の動機と目的
- 対照学習における2値のインスタンス識別を再考させる動機づけとして、厳密なインスタンスを超える異なる画像間の相関を強調する。
- 現在のサンプルを支えるために、ソフトで高く相関した近傍インスタンスを識別し活用する仕組みを開発する。
- コントラスト損失の中で近傍をソフトに重み付けするために、cross-attention ベースの positiveness score を統合する。
- ソフトネighbors を取り入れることで学習表現の下流タスクへの転移性が向上することを示す。
提案手法
- 他の画像から最近傍の候補集合を構築する。
- 現在のビューと各候補近傍との間で cross-attention ベースの positiveness score w_i を計算してソフトウェット weights を得る。
- これらの重みを、正の寄与の加重和としてコントラスト損失に組み込む(Eq. 2)。
- 近傍識別のためにモーメンタムブランチの特徴を格納する memory queue C を使用する(Eq. 3)。
- 標準的なSSLバックボーン(ResNetおよびViT)を、適切なオプティマイザ(ResNetには LARS、ViTには AdamW)とデータ拡張を用いて、確立されたSSL実践に従って訓練する。
- 性能への positiveness、近傍数、および候補集合サイズの影響を示す視覚化とアブレーションを提供する。
実験結果
リサーチクエスチョン
- RQ1異なる画像間のソフトで段階的な相関は、二値のインスタンス識別よりも対照学習を改善できるか。
- RQ2SSL で特定のビューを最も効果的に支えるように、近傍インスタンスをどのように選択し重み付けすべきか。
- RQ3ソフトネighbor の強化は、CNNとViTのアーキテクチャ全体および分類・検出・セグメンテーションのようなタスク全般に一般化するか。
主な発見
- SNCLR は ResNet-50 の ImageNet における複数の自己教師ありベースラインより一貫して top-1 精度を向上させる(例:複数のエポックで従来法を上回る)。
- ViT ベースのエンコーダ(ViT-S、ViT-B)も soft neighbors から恩恵を受け、いくつかの競合 SSL 手法より高い精度を達成。
- 大規模な候補集合と positiveness weighting を用いた30個の soft neighbors がアブレーションで最良の性能を示し、近傍数とソフト重み付けの両方の重要性を示唆。
- SNCLR を事前訓練信号として COCO のオブジェクト検出およびインスタンス分割への転移を改善し、いくつかの SSL ベースラインより高い AP 指標を達成。
- 半教師あり設定では、限られたラベルデータで ResNet-50 および ViT-S バックボーンにおいて、強力な top-1 および top-5 の性能を達成している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。