[论文解读] Revisiting Contrastive Methods for Unsupervised Learning of Visual Representations
本文分析对比自监督学习(基于 MoCo)的数据集偏差,并指出标准增广在面向对象、场景、均匀或长尾以及领域特定数据上具有迁移性;同时引入额外的不变性(多裁剪、更强的增广、最近邻)来提升表征,并展示来自多裁剪的空间结构特征。
Contrastive self-supervised learning has outperformed supervised pretraining on many downstream tasks like segmentation and object detection. However, current methods are still primarily applied to curated datasets like ImageNet. In this paper, we first study how biases in the dataset affect existing methods. Our results show that current contrastive approaches work surprisingly well across: (i) object- versus scene-centric, (ii) uniform versus long-tailed and (iii) general versus domain-specific datasets. Second, given the generality of the approach, we try to realize further gains with minor modifications. We show that learning additional invariances -- through the use of multi-scale cropping, stronger augmentations and nearest neighbors -- improves the representations. Finally, we observe that MoCo learns spatially structured representations when trained with a multi-crop strategy. The representations can be used for semantic segment retrieval and video instance segmentation without finetuning. Moreover, the results are on par with specialized models. We hope this work will serve as a useful study for other researchers. The code and models are available at https://github.com/wvangansbeke/Revisiting-Contrastive-SSL.
研究动机与目标
- 评估数据集偏差(面向对象 vs 面向场景、均匀 vs 长尾、通用 vs 特定领域)如何影响对比自监督学习。
- 探索简单、与模型无关的修改,以在不增加新预任务的情况下提升表征。
- 研究结构/数据线索是否能产生对密集任务有用的空间结构表征。
- 评估所学表征在广泛下游任务中的迁移能力。
提出的方法
- 在 MoCo 的基础上,使用 ResNet-50 主干和投影头;使用带动量编码器的记忆库来提供负样本。
- 在多样数据集(ImageNet、COCO、OpenImages、BDD100K)上评估预训练,并评估到线性、分割、检测、视频分割和深度任务的迁移能力。
- 通过比较面向对象 vs 面向场景的数据,以及均匀 vs 长尾分布,研究数据集偏差影响。
- 提出三种不变性增强方法:多裁剪变换、更强的增广,以及在线最近邻正样本。
- 引入受限多裁剪和动量降低的多裁剪以提高训练效率。
- 提出 kNN-MoCo:使用来自主干特征的第二个队列的最近邻辅助损失,以对表征进行正则化。
实验结果
研究问题
- RQ1与对象中心数据相比,在场景中心或长尾数据上进行预训练时,类似 MoCo 的对比自监督方法是否性能下降?
- RQ2简单、与数据集无关的增广是否能跨多样的下游任务迁移,无需定制的领域先验?
- RQ3额外的不变性(多裁剪、更强增广、最近邻)是否提升迁移性能并在无标注数据的情况下实现密集表征?
- RQ4多裁剪学习是否能在不微调的情况下产生对密集预测任务有用的空间结构表征?
主要发现
- 基于 MoCo 的预训练在对象中心和场景中心数据集,以及在均匀和长尾分布下均表现出鲁棒性。
- 在预训练期间增加数据多样性(COCO/OpenImages)在多项任务上可以在微调时达到甚至超过 ImageNet 预训练结果。
- 多裁剪和受限多裁剪显著提升迁移性能,并使学习到的空间结构表征支持在不进行微调的情况下完成密集任务。
- 单独更强增广并不总是有帮助;将标准增广和更强增广结合可获得更好的 VOC 分割性能。
- 最近邻增广(kNN-MoCo)进一步提升线性分类迁移并在多任务中保持收益。
- 最终在这些不变性下预训练的模型在若干任务上达到甚至超越专门方法的竞争性结果,包括视频实例分割和语义分割检索。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。