QUICK REVIEW

[论文解读] Unsupervised Visual Representation Learning by Context Prediction

Carl Doersch, Abhinav Gupta|arXiv (Cornell University)|May 19, 2015

Advanced Image and Video Retrieval Techniques参考文献 58被引用 280

一句话总结

本文提出一种自监督方法，通过训练卷积神经网络预测图像块之间的相对空间位置，实现无监督视觉表征学习。利用图像内部的上下文作为监督信号，模型学习到丰富的可迁移特征，即使在无任何人工标注的情况下，也能在Pascal VOC数据集上实现目标检测和无监督对象发现的最先进性能。

ABSTRACT

This work explores the use of spatial context as a source of free and plentiful supervisory signal for training a rich visual representation. Given only a large, unlabeled image collection, we extract random pairs of patches from each image and train a convolutional neural net to predict the position of the second patch relative to the first. We argue that doing well on this task requires the model to learn to recognize objects and their parts. We demonstrate that the feature representation learned using this within-image context indeed captures visual similarity across images. For example, this representation allows us to perform unsupervised visual discovery of objects like cats, people, and even birds from the Pascal VOC 2011 detection dataset. Furthermore, we show that the learned ConvNet can be used in the R-CNN framework and provides a significant boost over a randomly-initialized ConvNet, resulting in state-of-the-art performance among algorithms which use only Pascal-provided training set annotations.

研究动机与目标

为了解决在互联网规模数据集上扩展视觉表征学习的挑战，消除对昂贵人工标注的依赖。
探究未标注图像中的空间上下文是否可作为学习丰富视觉特征的免费且有效的监督信号。
开发一种自监督的预训练任务，以促使模型在无类别标签的情况下学习对象级和部件级的视觉结构。
评估所学习的表征是否具备跨图像的泛化能力，并提升下游任务（如目标检测和无监督发现）的性能。
证明实例级上下文预测可生成对现实世界视觉任务有用的类别级视觉表征。

提出的方法

模型在预训练任务上进行训练：给定同一张图像中两个随机图像块，预测第二个图像块相对于第一个图像块的相对空间位置（八种可能配置之一）。
该方法使用卷积神经网络（ConvNet）提取每个图像块的特征，并分类其相对位置，采用交叉熵损失优化预测结果。
训练数据由自然图像中的随机裁剪对构建，预训练过程中未使用任何类别标签或边界框。
预训练完成后，使用R-CNN框架在下游任务（如目标检测）上对特征提取器进行微调。
对于无监督对象发现，利用模型的特征通过最近邻搜索和几何验证对图像块进行聚类，随后通过迭代聚类选择以最大化覆盖度和纯度。
该方法在Pascal VOC 2007和Paris Street View数据集上进行评估，使用纯度-覆盖度曲线和预训练任务的分类准确率。

实验结果

研究问题

RQ1未标注图像中的空间上下文能否作为学习丰富视觉表征的强监督信号？
RQ2一个训练为预测图像块相对位置的模型，是否能学会识别对象及其组成部分？
RQ3此类自监督表征是否具备跨图像的泛化能力，并能提升类别级任务（如目标检测）的性能？
RQ4所学习的表征在多大程度上支持无监督视觉对象发现？
RQ5上下文预测方法在下游任务上的性能与监督方法或其他自监督基线相比如何？

主要发现

模型在相对位置预测任务上的准确率达到38.4%，显著高于12.5%的随机猜测水平，表明该任务具有挑战性但可学习。
在Pascal VOC 2007数据集上，所学习的表征在R-CNN框架中显著优于随机初始化的ConvNet，且在仅使用Pascal提供标注的方法中达到最先进性能。
该表征可实现无类别级监督下，从Pascal VOC 2011数据集无监督发现猫、人和鸟等对象。
在Pascal VOC 2007的一个子集上，该方法实现了高达50%的覆盖度（中等纯度），表明即使采用比先前工作更简单的聚类选择流程，仍具备强大的不变性和泛化能力。
在ImageNet上，模型的验证准确率达到40.3%，与训练准确率39.5%接近，表明模型过拟合程度较低，且对分布偏移具有鲁棒性。
即使仅限制在对象边界框内的图像块上，模型仍能达到39.2%的准确率，表明其对对象结构具有敏感性；然而在非对象区域性能依然较高，表明具备更广泛的场景理解能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。