[论文解读] Transitive Invariance for Self-supervised Visual Representation Learning
该论文提出了一种自监督视觉表征学习方法,通过从视频数据构建大规模相似性图,利用实例间和实例内变化实现传递不变性。通过对该图应用传递性,生成更丰富的不变性,用于训练以VGG16为骨干网络的三元组孪生网络,在目标检测任务上取得最先进性能(PASCAL VOC 2007上mAP达63.2%,COCO上AP达23.5%),并在表面法线估计任务上超越ImageNet预训练。
Learning visual representations with self-supervised learning has become popular in computer vision. The idea is to design auxiliary tasks where labels are free to obtain. Most of these tasks end up providing data to learn specific kinds of invariance useful for recognition. In this paper, we propose to exploit different self-supervised approaches to learn representations invariant to (i) inter-instance variations (two objects in the same class should have similar features) and (ii) intra-instance variations (viewpoint, pose, deformations, illumination, etc). Instead of combining two approaches with multi-task learning, we argue to organize and reason the data with multiple variations. Specifically, we propose to generate a graph with millions of objects mined from hundreds of thousands of videos. The objects are connected by two types of edges which correspond to two types of invariance: "different instances but a similar viewpoint and category" and "different viewpoints of the same instance". By applying simple transitivity on the graph with these edges, we can obtain pairs of images exhibiting richer visual invariance. We use this data to train a Triplet-Siamese network with VGG16 as the base architecture and apply the learned representations to different recognition tasks. For object detection, we achieve 63.2% mAP on PASCAL VOC 2007 using Fast R-CNN (compare to 67.3% with ImageNet pre-training). For the challenging COCO dataset, our method is surprisingly close (23.5%) to the ImageNet-supervised counterpart (24.4%) using the Faster R-CNN framework. We also show that our network can perform significantly better than the ImageNet network in the surface normal estimation task.
研究动机与目标
- 通过利用无需人工标注的更丰富的视觉不变性,弥合自监督与监督表征学习之间的差距。
- 通过数据推理而非多任务学习结合实例间与实例内变化,提升自监督模型的泛化能力。
- 证明自监督表征可与或优于ImageNet预训练在下游任务(如目标检测和表面法线估计)中的表现。
- 在具有挑战性的COCO目标检测数据集上建立自监督预训练的新基准。
提出的方法
- 从数十万段视频中构建大规模相似性图,利用目标跟踪和实例级共现性学习定义两类边:实例间边(相同类别、相似视角)和实例内边(同一对象的不同视角)。
- 在图上应用传递推理,生成表现出超越单一来源的复杂复合不变性的新图像对。
- 使用传递生成的图像对,以VGG16为骨干网络训练三元组孪生网络,学习对多种变化具有不变性的视觉表征。
- 在下游任务(如目标检测(Fast R-CNN、Faster R-CNN)和表面法线估计(FCN-32s))上微调学习到的表征。
- 使用无监督跟踪(如[61])和实例共现性学习(如[9])在无人工监督下挖掘图中的边。
- 在PASCAL VOC 2007、COCO和NYUv2上评估性能,与ImageNet预训练及先前自监督方法进行比较。
实验结果
研究问题
- RQ1在自监督数据上应用传递推理,能否在个体不变性类型之外提升视觉表征学习?
- RQ2通过传递不变性训练的自监督表征能否在目标检测基准上与或超越ImageNet预训练?
- RQ3所提方法在低层次视觉任务(如表面法线估计)上是否比先前自监督方法泛化能力更强?
- RQ4为何对独立不变性目标的多任务学习无法提升性能?数据级组合通过传递性能否克服此问题?
主要发现
- 使用Fast R-CNN与VGG16在PASCAL VOC 2007上达到63.2% mAP,接近ImageNet预训练的67.3% mAP。
- 首次报告自监督预训练在COCO目标检测任务上的结果,达到23.5% AP,与ImageNet预训练的24.4% AP仅相差1%。
- 在NYUv2表面法线估计任务上,自监督模型优于ImageNet预训练,实现26.0°平均误差和67.5%误差小于30°的像素比例,而ImageNet为27.8°和63.4%。
- 在11.25°误差阈值下,该方法在表面法线估计任务上比先前自监督方法[9]和[61]高出4.3%的性能。
- 在仅微调全连接层时,自监督模型在VOC2007上达到43.1% mAP,显著优于基线方法。
- 消融实验表明,对实例间与实例内不变性进行多任务学习无法提升性能,凸显了数据级传递性相比损失级组合的优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。