[论文解读] Mugs: A Multi-Granular Self-Supervised Learning Framework
tldr: Mugs 引入了一个包含三种互补监督的多粒度自监督学习框架——实例、局部组和组别判别——以学习实例级、局部组级和组级特征,在 ImageNet-1K 上实现线性探测的最新水平并具强大的迁移能力。
In self-supervised learning, multi-granular features are heavily desired though rarely investigated, as different downstream tasks (e.g., general and fine-grained classification) often require different or multi-granular features, e.g.~fine- or coarse-grained one or their mixture. In this work, for the first time, we propose an effective MUlti-Granular Self-supervised learning (Mugs) framework to explicitly learn multi-granular visual features. Mugs has three complementary granular supervisions: 1) an instance discrimination supervision (IDS), 2) a novel local-group discrimination supervision (LGDS), and 3) a group discrimination supervision (GDS). IDS distinguishes different instances to learn instance-level fine-grained features. LGDS aggregates features of an image and its neighbors into a local-group feature, and pulls local-group features from different crops of the same image together and push them away for others. It provides complementary instance supervision to IDS via an extra alignment on local neighbors, and scatters different local-groups separately to increase discriminability. Accordingly, it helps learn high-level fine-grained features at a local-group level. Finally, to prevent similar local-groups from being scattered randomly or far away, GDS brings similar samples close and thus pulls similar local-groups together, capturing coarse-grained features at a (semantic) group level. Consequently, Mugs can capture three granular features that often enjoy higher generality on diverse downstream tasks over single-granular features, e.g.~instance-level fine-grained features in contrastive learning. By only pretraining on ImageNet-1K, Mugs sets new SoTA linear probing accuracy 82.1$\%$ on ImageNet-1K and improves previous SoTA by $1.1\%$. It also surpasses SoTAs on other tasks, e.g. transfer learning, detection and segmentation.
研究动机与目标
- 为适应多样下游任务(粗粒度、细粒度和多粒度特征)提出多粒度表示的需求动机。
- 提出一个自监督框架,通过三种互补监督:实例、局部组和组判别,明确学习多粒度视觉特征。
- 证明多粒度学习提高了在分类、检测、分割和视频任务中的普遍性和可迁移性。
- 使用 vision transformers 在 ImageNet-1K 上评估 Mugs,并在若干评估协议中与最先进的 SSL 方法进行比较。
提出的方法
- 引入三种粒度的监督:实例判别(IDS)用于实例级细粒度特征。
- 提出局部组判别监督(LGDS),通过一个小型变换器将图像及其邻近区域聚合为局部组特征,并在裁剪之间对齐局部组。
- 采用组判别监督(GDS)与在线聚类原型来捕捉粗粒度语义组特征,使用软伪标签并在组分配上应用交叉熵损失。
- 联合目标函数以相等权重(均为1/3)组合 L_instance、L_local-group、L_group,并通过指数移动平均更新教师模型。
- 在 ViT 主干网下使用多裁剪训练设置(两个大裁剪和多个小裁剪),并为负样本和局部组样本设置记忆缓冲区。
- 在 ImageNet-1K 上进行线性探测、KNN、微调和半监督设置的评估;并与 MoCo、SimCLR、BYOL、SwAV、DINO、iBOT 等方法进行比较。
实验结果
研究问题
- RQ1SSL 表征是否能够同时编码实例级、局部组级和组级语义,以提升下游任务性能?
- RQ2三种粒度监督如何相互作用,产生比单粒度 SSL 方法更通用和可迁移的特征?
- RQ3多粒度监督对 ImageNet-1K 的线性探测、KNN、微调和半监督学习有何影响?
- RQ4学习的多粒度特征是否能有效迁移到检测和分割等超越分类的下游任务?
主要发现
| 方法 | 架构 | 参数数量 | 数据集 | 轮次 | 线性评估 | k-NN |
|---|---|---|---|---|---|---|
| MoCo-v3 | ResNet-50 | 23M | ImageNet-1K | 1600 | 74.6 | — |
| SimCLR | ResNet-50 | 23M | ImageNet-1K | 1600 | 69.3 | — |
| InfoMin Aug | ResNet-50 | 23M | ImageNet-1K | 1600 | 73.0 | — |
| SimSiam | ResNet-50 | 23M | ImageNet-1K | 1600 | 71.3 | — |
| BYOL | ResNet-50 | 23M | ImageNet-1K | 2000 | 74.3 | — |
| SwAV | ResNet-50 | 23M | ImageNet-1K | 2400 | 75.3 | 65.7 |
| DeepCluster-v2 | ResNet-50 | 23M | ImageNet-1K | 2400 | 75.2 | — |
| DINO | ResNet-50 | 23M | ImageNet-1K | 3200 | 75.3 | 67.5 |
| MoCo-v3 | ViT-S/16 | 21M | ImageNet-1K | 3200 | 73.4 | — |
| SwAV | ViT-S/16 | 21M | ImageNet-1K | 3200 | 73.5 | 66.3 |
| DINO | ViT-S/16 | 21M | ImageNet-1K | 3200 | 77.0 | 74.5 |
| iBOT | ViT-S/16 | 21M | ImageNet-1K | 3200 | 77.9 | 75.2 |
| Mugs | ViT-S/16 | 21M | ImageNet-1K | 3200 | 78.9 | 75.6 |
| MoCo-v3 | ViT-B/16 | 85M | ImageNet-1K | 1200 | 76.7 | — |
| DINO | ViT-B/16 | 85M | ImageNet-1K | 1600 | 78.2 | 76.1 |
| iBOT | ViT-B/16 | 85M | ImageNet-1K | 1600 | 79.5 | 77.1 |
| Mugs | ViT-B/16 | 85M | ImageNet-1K | 1600 | 80.6 | 78.0 |
| MoCo-v3 | ViT-L/16 | 307M | ImageNet-1K | 1200 | 77.6 | — |
| iBOT | ViT-L/16 | 307M | ImageNet-1K | 1000 | 81.0 | 78.0 |
| Mugs | ViT-L/16 | 307M | ImageNet-1K | 1000 | 82.1 | 80.3 |
- Mugs 在 ImageNet-1K 上实现了线性探测最新水平(ViT-L/16 在预训练于 ImageNet-1K 时为 82.1%)。
- Mugs 在不同模型尺寸(ViT-S/16、ViT-B/16、ViT-L/16)和预训练轮次下,在多种设置下的线性探测至少提升 0.8%。
- 在 KNN 中,Mugs 在所有骨干网络上均得到最高准确率,较第二名提升可达 2.3%。
- 在微调和半监督设置下,Mugs 在 ViT-S/16 和 ViT-B/16 上取得新的 SoTA,并在标记数据有限的情况下表现强劲(如 1%/10% 标记数据)。
- Mugs 展示了对下游任务(如检测和分割)的强迁移性,表明所学习的多粒度特征具通用性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。