QUICK REVIEW

[论文解读] Demystifying Contrastive Self-Supervised Learning: Invariances, Augmentations and Dataset Biases

Senthil Purushwalkam, Abhinav Gupta|arXiv (Cornell University)|Jul 28, 2020

Domain Adaptation and Few-Shot Learning参考文献 40被引用 130

一句话总结

本文分析对比自监督学习为何成功，显示遮挡不变性在很大程度上来自激进的数据增强和以对象为中心的数据集偏差，并提出基于视频的时序变换以提升视点不变性。

ABSTRACT

Self-supervised representation learning approaches have recently surpassed their supervised learning counterparts on downstream tasks like object detection and image classification. Somewhat mysteriously the recent gains in performance come from training instance classification models, treating each image and it's augmented versions as samples of a single class. In this work, we first present quantitative experiments to demystify these gains. We demonstrate that approaches like MOCO and PIRL learn occlusion-invariant representations. However, they fail to capture viewpoint and category instance invariance which are crucial components for object recognition. Second, we demonstrate that these approaches obtain further gains from access to a clean object-centric training dataset like Imagenet. Finally, we propose an approach to leverage unstructured videos to learn representations that possess higher viewpoint invariance. Our results show that the learned representations outperform MOCOv2 trained on the same data in terms of invariances encoded and the performance on downstream image classification and semantic segmentation tasks.

研究动机与目标

研究对比自监督表示在对象识别任务中编码了哪些不变性。
分析数据增强策略和数据集偏差在对比自监督学习方法成功中的作用。
评估自监督方法在关键不变性（遮挡、视点、光照、实例）方面与有监督基线的比较。
提出并测试替代方案（使用视频）以改进学习表示中的视点和其他不变性。

提出的方法

形式化对比学习目标以及正样本/负样本对的构造。
通过 Top-K 表示不变性分数 RIS 衡量遮挡、视点、光照和实例等因素上的不变性。
诊断数据增强方案（随机裁剪、激进裁剪）和数据集偏差（ImageNet 的对象中心偏差）对学习表示的影响。
在下游任务和不变性方面比较有监督与自监督（MOCOv2、PIRL）表示。
提出基于视频的时序变换学习（帧级和区域跟踪）以增强视点和光照不变性。
在分类（Pascal、Pascal Cropped Boxes、ImageNet）和分割（ADE20K）任务上评估所提出的视频表示。

实验结果

研究问题

RQ1对比自监督表示编码了哪些不变性，以及这些不变性与预训练时使用的增强之间的关系？
RQ2自监督方法在遮挡、不变性视点和实例方面在多大程度上达到与有监督基线相当？
RQ3预训练数据集中的数据偏差（如 ImageNet 的对象中心偏差）如何影响学习的表示及下游性能？
RQ4是否可以利用视频中的时序一致变换来改善视点、形变和其他不变性？
RQ5基于视频或区域跟踪的方法是否能在不变性和下游任务上超过基于图像的 MOCOv2？

主要发现

数据集	方法	遮挡 Top-10	遮挡 Top-25	视点 Top-10	视点 Top-25	光照方向 Top-10	光照方向 Top-25	光照颜色 Top-10	光照颜色 Top-25	实例 Top-10	实例 Top-25	实例+视点 Top-10	实例+视点 Top-25
Imagenet	Sup. R50	80.89	74.21	89.54	82.62	94.63	89.08	99.88	99.38	66.11	59.44	70.17	63.47
Imagenet	MOCOv2	84.19	77.88	85.15	75.08	90.28	80.76	99.66	97.11	62.49	55.01	67.40	60.52
Imagenet	PIRL	84.46	78.38	85.8	76.08	85.?	?	99.68	97.19	52.97	46.79	57.01	51.03

自监督方法（MOCO、PIRL）因激进裁剪而呈现强的遮挡不变性，但在视点和实例不变性方面落后于有监督模型。
来自激进增强的遮挡不变性并非对所有任务都有益，且对对象中心化数据集偏好的依赖可能驱动观察到的增益。
ImageNet 上的有监督模型显示不同的不变性特征，自监督方法在遮挡方面表现突出，但在视点、光照方向/颜色和实例不变性方面表现不足。
在 MSCOCO 和裁剪框变体上的评估表明，预训练数据中的对象中心偏差显著影响辨别力和迁移性。
基于视频的时序变换（帧级和区域跟踪方法）提高了视点和光照不变性，在若干指标上甚至超越在同一数据上训练的 MOCOv2。
区域跟踪表示在视点和光照不变性方面达到更高水平，并在下游任务（Pascal、ImageNet、ADE20K）上具备竞争力，与帧级方法相比。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。