QUICK REVIEW

[论文解读] Do Convnets Learn Correspondence?

Jonathan Long, Ning Zhang|arXiv (Cornell University)|Nov 4, 2014

Advanced Neural Network Applications参考文献 35被引用 161

一句话总结

本文研究了尽管感受野较大且监督较弱，卷积神经网络（ConvNets）是否仍能学习到有效的对应特征。利用预训练ImageNet模型的特征，作者证明了ConvNet激活能够实现细粒度定位，在PASCAL VOC 2011上的关键点预测中优于SIFT，使用conv5特征和先验时平均PCK准确率达到42.5%，显著超过SIFT的28.4%。

ABSTRACT

Convolutional neural nets (convnets) trained from massive labeled datasets have substantially improved the state-of-the-art in image classification and object detection. However, visual understanding requires establishing correspondence on a finer level than object category. Given their large pooling regions and training from whole-image labels, it is not clear that convnets derive their success from an accurate correspondence model which could be used for precise localization. In this paper, we study the effectiveness of convnet activation features for tasks requiring correspondence. We present evidence that convnet features localize at a much finer scale than their receptive field sizes, that they can be used to perform intraclass alignment as well as conventional hand-engineered features, and that they outperform conventional features in keypoint prediction on objects from PASCAL VOC 2011.

研究动机与目标

确定为图像分类训练的ConvNets是否能学习到具备像素级精确对应能力的特征。
评估ConvNet特征在类内对齐和关键点预测任务中的有效性。
将学习到的ConvNet特征与手工设计的SIFT特征在对应任务中的表现进行比较。
探究ConvNets中较大的感受野是否削弱其建模细粒度空间对应的能力。
证明端到端学习的特征在通用物体类别定位精度方面可超越传统特征。

提出的方法

使用在ImageNet上预训练的ConvNet（Caffe参考模型），以conv5层的特征作为主要表征。
通过从特征图进行非参数化图像重建，可视化有效感受野和空间特异性。
应用SIFT flow结合深度特征，利用pool5特征的余弦相似度实现同类别图像间的对齐。
使用硬负样本挖掘训练线性SVM进行关键点检测，以3×3感受野邻域内的特征作为正样本。
将局部检测器得分与基于pool5特征空间中最近邻匹配的球面高斯先验相结合，以提升定位精度。
通过交叉验证优化检测器与先验得分的融合，采用权衡参数η=0.1，最终预测选择得分最高的候选。

实验结果

研究问题

RQ1来自分类网络的ConvNet特征是否能在需要细粒度对应的任务中表现得与手工特征相当？
RQ2ConvNets中较大的感受野在多大程度上限制了其建模精确空间对应的能力？
RQ3来自预训练ConvNet深层的特征是否能支持跨物体实例的准确类内对齐？
RQ4来自单一网络架构的学习特征是否能在通用物体类别上的关键点预测中超越SIFT？
RQ5通过最近邻匹配引入先验知识在多大程度上能提升使用ConvNet特征的关键点定位？

主要发现

conv5层的ConvNet特征在定位上的精细程度高于其感受野大小所暗示的程度，表明具有高度的空间特异性。
作者证明了conv5特征能够以与传统手工设计特征相当的效率实现类内对齐。
在PASCAL VOC 2011的关键点预测中，conv5特征优于SIFT，当与先验结合时，平均PCK准确率达到42.5%。
引入球面高斯先验后，SIFT和conv5特征的性能均得到提升，其中conv5+先验达到42.5%的平均PCK。
本结果是首次报告的在PASCAL VOC 2011数据集上使用深度特征的关键点预测性能。
可视化结果表明，与SIFT相比，conv5特征能产生更准确且更一致的关键点预测，尤其在马和花盆等具有挑战性的类别上。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。