QUICK REVIEW

[论文解读] Unsupervised Learning of Visual Representations using Videos

Xiaolong Wang, Abhinav Gupta|arXiv (Cornell University)|May 4, 2015

Advanced Image and Video Retrieval Techniques参考文献 51被引用 202

一句话总结

本文提出一种基于视频的无监督视觉表征学习方法，利用追踪补丁的时间一致性作为自监督信号。通过在10万张未标注视频中提取的数百万个追踪补丁上训练孪生三元组网络并使用排序损失，该方法在PASCAL VOC目标检测任务上达到52% mAP，与ImageNet监督模型相比仅低2.4%，且无需任何人工标注的标签。

ABSTRACT

Is strong supervision necessary for learning a good visual representation? Do we really need millions of semantically-labeled images to train a Convolutional Neural Network (CNN)? In this paper, we present a simple yet surprisingly powerful approach for unsupervised learning of CNN. Specifically, we use hundreds of thousands of unlabeled videos from the web to learn visual representations. Our key idea is that visual tracking provides the supervision. That is, two patches connected by a track should have similar visual representation in deep feature space since they probably belong to the same object or object part. We design a Siamese-triplet network with a ranking loss function to train this CNN representation. Without using a single image from ImageNet, just using 100K unlabeled videos and the VOC 2012 dataset, we train an ensemble of unsupervised networks that achieves 52% mAP (no bounding box regression). This performance comes tantalizingly close to its ImageNet-supervised counterpart, an ensemble which achieves a mAP of 54.4%. We also show that our unsupervised network can perform competitively in other tasks such as surface-normal estimation.

研究动机与目标

探究在深度卷积神经网络中学习强视觉表征是否需要强语义监督。
探索未标注视频是否包含足够的时空结构以实现有效的自监督表征学习。
开发一种不依赖ImageNet或任何人工标注数据集即可学习强大视觉特征的方法。
评估所学表征在目标检测之外的下游任务中的泛化能力。

提出的方法

该方法利用无监督视频追踪生成正样本和负样本三元组：第一帧中的查询补丁、同一轨迹最后帧的追踪补丁，以及另一段视频中随机选取的补丁。
采用孪生三元组网络架构，使网络学习将查询补丁与追踪补丁在特征空间中拉近，而与随机补丁保持更远距离。
排序损失函数强制要求查询补丁与追踪补丁之间的距离小于其与任意随机补丁之间的距离。
网络在10万张未标注视频及从中提取的总计800万个补丁上进行训练，仅使用追踪一致性作为监督信号。
预训练完成后，该网络在PASCAL VOC 2012数据集上进行微调以完成目标检测任务，且未在ImageNet上进行任何额外预训练。
该方法进一步在NYUv2数据集上评估了表面法线估计任务，其中无监督模型仅用极少数据进行微调，即达到接近ImageNet性能的水平。

实验结果

研究问题

RQ1是否可以完全不依赖人工标注数据或ImageNet预训练，仅从未标注视频中有效学习视觉表征？
RQ2视频追踪中的时间一致性是否足以提供监督信号以学习判别性深度特征？
RQ3在目标检测任务上，基于网络规模视频无监督训练的CNN性能与使用ImageNet预训练的监督模型相比如何？
RQ4无监督表征是否能在其他视觉任务（如表面法线估计）上实现良好泛化？
RQ5在下游任务中，无监督预训练相比从零开始训练能带来多大的性能提升？

主要发现

无监督预训练的CNN集成模型在PASCAL VOC 2012目标检测任务上达到52% mAP（未使用边界框回归），相比从零开始训练高出4.7%。
无监督模型达到52% mAP，与实现54.4% mAP的ImageNet监督模型相比仅低2.4%。
在NYUv2表面法线估计任务中，从预训练权重微调的无监督模型平均误差为34.2°，优于从零开始训练（38.6°），并接近ImageNet预训练模型的性能（33.3°）。
在NYUv2上，无监督模型的中位误差为21.9°，而从零开始训练为26.5°，ImageNet预训练模型为20.8°。
该方法表明，视频中的时间一致性可作为强大的监督代理，使无需语义标签的强表征学习成为可能。
结果表明，基于网络规模视频的无监督预训练可在多个任务上生成具有竞争力的特征，挑战了‘强监督对高性能视觉模型必不可少’的假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。