QUICK REVIEW

[论文解读] Learning to See by Moving

Pulkit Agrawal, João Carreira|arXiv (Cornell University)|May 7, 2015

Advanced Image and Video Retrieval Techniques参考文献 8被引用 145

一句话总结

本文提出通过自监督方式训练神经网络预测图像对之间的自身运动（egomotion）——即相机运动——来学习视觉表征。该方法在相同训练数据量下，于场景识别、物体识别、视觉里程计和关键点匹配等多项任务中均优于基于类别标签的监督预训练，证明了自身运动是一种强大且免费的信号，可用于学习通用视觉特征。

ABSTRACT

The dominant paradigm for feature learning in computer vision relies on training neural networks for the task of object recognition using millions of hand labelled images. Is it possible to learn useful features for a diverse set of visual tasks using any other form of supervision? In biology, living organisms developed the ability of visual perception for the purpose of moving and acting in the world. Drawing inspiration from this observation, in this work we investigate if the awareness of egomotion can be used as a supervisory signal for feature learning. As opposed to the knowledge of class labels, information about egomotion is freely available to mobile agents. We show that given the same number of training images, features learnt using egomotion as supervision compare favourably to features learnt using class-label as supervision on visual tasks of scene recognition, object recognition, visual odometry and keypoint matching.

研究动机与目标

探究对于移动智能体而言自然存在的自身运动信号是否可作为学习通用视觉表征的有效监督信号。
检验基于自身运动的预训练是否能获得与从数百万张类别标注图像中学习到的特征相媲美甚至更优的特征。
评估基于自身运动监督的特征在多种视觉任务中的性能，包括识别、里程计和关键点匹配。
与先前的无监督方法（如慢特征分析）进行比较，展示在真实世界数据上的性能提升。

提出的方法

训练深度神经网络，以预测在自身运动过程中捕获的连续图像对之间的6-DoF相机变换（旋转与平移）。
采用类似Siamese的双分支网络架构，共享权重以处理图像对，并回归相对相机位姿。
使用对比损失函数，对预测与真实变换进行训练，监督信号来源于里程计传感器或电机指令。
从最后一层卷积层（如AlexNet的conv-4或conv-5）提取特征，用于下游任务。
使用标准基准评估特征：SUN用于场景识别，KITTI/SF用于视觉里程计，PASCAL VOC用于关键点匹配，ImageNet用于物体识别。
通过图像对角线长度对关键点匹配误差进行归一化，以确保在不同图像分辨率下的尺度不变性。

实验结果

研究问题

RQ1自身运动能否作为自监督信号，用于学习在多种视觉任务中具有良好泛化能力的视觉表征？
RQ2当使用相同数量的训练图像时，基于自身运动的特征学习与基于类别标签的监督预训练相比表现如何？
RQ3在真实世界视频数据上，基于自身运动的预训练是否优于现有的无监督方法（如慢特征分析）？
RQ4基于自身运动学习的特征在零样本或少样本学习场景中的泛化能力如何？

主要发现

在SUN数据集上，基于自身运动预训练的特征在场景识别任务中达到76.8%的top-1准确率，当使用相同数量图像进行训练时，优于ImageNet监督预训练的特征。
在KITTI数据集的视觉里程计任务中，基于自身运动预训练的模型达到1.74米的中位数平移误差，与最先进监督模型性能相当。
在PASCAL VOC的关键点匹配任务中，基于自身运动训练的KittiNet-1M模型达到1.85像素（归一化后）的平均匹配误差，优于SIFT及其他无监督基线方法。
在ImageNet上，经微调后，基于自身运动预训练的特征达到68.4%的top-1准确率，仅使用10万张图像，已接近使用ImageNet监督预训练的性能。
该方法在相同KITTI和SF数据集上显著优于慢特征分析，证明了基于自身运动监督的特征质量更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。