[論文レビュー] Mugs: A Multi-Granular Self-Supervised Learning Framework
Mugsは、3つの補完的な監督信号—インスタンス、ローカルグループ、グループ識別—を備えた多粒度SSLフレームワークを導入し、ImageNet-1Kで線形プロービングの最先端を達成し、転移性能も高い。
In self-supervised learning, multi-granular features are heavily desired though rarely investigated, as different downstream tasks (e.g., general and fine-grained classification) often require different or multi-granular features, e.g.~fine- or coarse-grained one or their mixture. In this work, for the first time, we propose an effective MUlti-Granular Self-supervised learning (Mugs) framework to explicitly learn multi-granular visual features. Mugs has three complementary granular supervisions: 1) an instance discrimination supervision (IDS), 2) a novel local-group discrimination supervision (LGDS), and 3) a group discrimination supervision (GDS). IDS distinguishes different instances to learn instance-level fine-grained features. LGDS aggregates features of an image and its neighbors into a local-group feature, and pulls local-group features from different crops of the same image together and push them away for others. It provides complementary instance supervision to IDS via an extra alignment on local neighbors, and scatters different local-groups separately to increase discriminability. Accordingly, it helps learn high-level fine-grained features at a local-group level. Finally, to prevent similar local-groups from being scattered randomly or far away, GDS brings similar samples close and thus pulls similar local-groups together, capturing coarse-grained features at a (semantic) group level. Consequently, Mugs can capture three granular features that often enjoy higher generality on diverse downstream tasks over single-granular features, e.g.~instance-level fine-grained features in contrastive learning. By only pretraining on ImageNet-1K, Mugs sets new SoTA linear probing accuracy 82.1$\%$ on ImageNet-1K and improves previous SoTA by $1.1\%$. It also surpasses SoTAs on other tasks, e.g. transfer learning, detection and segmentation.
研究の動機と目的
- 粗粒度・細粒度・多粒度の特徴を含む、多様な下流タスクに対応する多粒度表現の必要性を動機づける。
- インスタンス、ローカルグループ、グループ識別という3つの補完的な監督信号を介して、明示的に多粒度の視覚特徴を学習する自己教師付きフレームワークを提案する。
- 分類、検出、セグメンテーション、動画タスク全般において、多粒度学習が一般性と転移性を改善することを示す。
- Vision Transformerを用いた ImageNet-1K で評価し、いくつかの評価プロトコルで最先端のSSL手法と比較する。
提案手法
- 三つの粒度監督を導入する:インスタンス識別(IDS)を用いてインスタンスレベルの細粒度特徴を得る。
- 小型トランスフォーマーを用いて画像とその近傍をローカルグループ特徴に集約し、クロップ間でローカルグループを整列させるローカルグループ識別監督(LGDS)を提案する。
- オンラインクラスタリングプロトタイプを用いるグループ識別監督(GDS)を採用し、ソフト疑似ラベルとグループ割当のクロスエントロピー損失を用いて粗粒度の意味的グループ特徴を捉える。
- L_instance、L_local-group、L_group を同等の重み(各1/3)で結合した共同目的関数を用い、教師を指数移動平均で更新する。
- ViTバックボーンを用い、マルチクロップトレーニング設定(2つの大きなクロップと複数の小さなクロップ)と、ネガティブおよびローカルグループサンプルのメモリバッファを使用する。
- ImageNet-1Kで線形プロービング、KNN、ファイントゥーニング、半教師付き設定で評価し、MoCo、SimCLR、BYOL、SwAV、DINO、iBOT、その他と比較する。
実験結果
リサーチクエスチョン
- RQ1SSL表現は、下流タスクの性能を向上させるために、同時にインスタンス、ローカルグループ、グループレベルの意味論を符号化できるだろうか?
- RQ23つの粒度監督はどのように相互作用して、単一粒度のSSL手法よりも一般的で転送しやすい特徴を生み出すのか?
- RQ3ImageNet-1Kにおける線形プロービング、KNN、ファイントゥーニング、半教師付き学習に対する多粒度監督の影響は何か?
- RQ4学習された多粒度特徴は、分類を超えた検出とセグメンテーションタスクへ効果的に転移するか?
主な発見
| 手法 | アーキテクチャ | パラメータ数 | データセット | エポック | 線形プローブ | k-NN |
|---|---|---|---|---|---|---|
| MoCo-v3 | ResNet-50 | 23M | ImageNet-1K | 1600 | 74.6 | — |
| SimCLR | ResNet-50 | 23M | ImageNet-1K | 1600 | 69.3 | — |
| InfoMin Aug | ResNet-50 | 23M | ImageNet-1K | 1600 | 73.0 | — |
| SimSiam | ResNet-50 | 23M | ImageNet-1K | 1600 | 71.3 | — |
| BYOL | ResNet-50 | 23M | ImageNet-1K | 2000 | 74.3 | — |
| SwAV | ResNet-50 | 23M | ImageNet-1K | 2400 | 75.3 | 65.7 |
| DeepCluster-v2 | ResNet-50 | 23M | ImageNet-1K | 2400 | 75.2 | — |
| DINO | ResNet-50 | 23M | ImageNet-1K | 3200 | 75.3 | 67.5 |
| MoCo-v3 | ViT-S/16 | 21M | ImageNet-1K | 3200 | 73.4 | — |
| SwAV | ViT-S/16 | 21M | ImageNet-1K | 3200 | 73.5 | 66.3 |
| DINO | ViT-S/16 | 21M | ImageNet-1K | 3200 | 77.0 | 74.5 |
| iBOT | ViT-S/16 | 21M | ImageNet-1K | 3200 | 77.9 | 75.2 |
| Mugs | ViT-S/16 | 21M | ImageNet-1K | 3200 | 78.9 | 75.6 |
| MoCo-v3 | ViT-B/16 | 85M | ImageNet-1K | 1200 | 76.7 | — |
| DINO | ViT-B/16 | 85M | ImageNet-1K | 1600 | 78.2 | 76.1 |
| iBOT | ViT-B/16 | 85M | ImageNet-1K | 1600 | 79.5 | 77.1 |
| Mugs | ViT-B/16 | 85M | ImageNet-1K | 1600 | 80.6 | 78.0 |
| MoCo-v3 | ViT-L/16 | 307M | ImageNet-1K | 1200 | 77.6 | — |
| iBOT | ViT-L/16 | 307M | ImageNet-1K | 1000 | 81.0 | 78.0 |
| Mugs | ViT-L/16 | 307M | ImageNet-1K | 1000 | 82.1 | 80.3 |
- MugsはImageNet-1Kで線形プロービング精度の最先端を達成(ImageNet-1Kで事前学習時、ViT-L/16で82.1%)。
- Mugsは、モデルサイズ(ViT-S/16、ViT-B/16、ViT-L/16)および事前学習エポックを問わず、線形プロービングで少なくとも0.8%の改善を一貫して達成。
- KNNでは、バックボーン全体で最高精度を示し、2.3%までの向上を達成。
- ファインチューニングおよび半教師付き設定で、ViT-S/16とViT-B/16で新しいSoTAを達成し、少ないラベルデータ(例: 1%/10%ラベル付きデータ)でも高い性能を示す。
- Mugsは検出・セグメンテーションなどの下流タスクへ強い転移性を示し、学習した多粒度特徴の一般性を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。