QUICK REVIEW

[论文解读] Universal Correspondence Network

Christopher Choy, JunYoung Gwak|arXiv (Cornell University)|Jun 11, 2016

Advanced Image and Video Retrieval Techniques参考文献 25被引用 257

一句话总结

该论文提出一个用于通用视觉对应的深度度量学习框架（UCN），通过全卷积架构实现几何和语义匹配，提出新颖的对应对比损失，以及用于patch归一化的卷积空间变换器。

ABSTRACT

We present a deep learning framework for accurate visual correspondences and demonstrate its effectiveness for both geometric and semantic matching, spanning across rigid motions to intra-class shape or appearance variations. In contrast to previous CNN-based approaches that optimize a surrogate patch similarity objective, we use deep metric learning to directly learn a feature space that preserves either geometric or semantic similarity. Our fully convolutional architecture, along with a novel correspondence contrastive loss allows faster training by effective reuse of computations, accurate gradient computation through the use of thousands of examples per image pair and faster testing with $O(n)$ feed forward passes for $n$ keypoints, instead of $O(n^2)$ for typical patch similarity methods. We propose a convolutional spatial transformer to mimic patch normalization in traditional features like SIFT, which is shown to dramatically boost accuracy for semantic correspondences across intra-class shape variations. Extensive experiments on KITTI, PASCAL, and CUB-2011 datasets demonstrate the significant advantages of our features over prior works that use either hand-constructed or learned features.

研究动机与目标

激发学习一个特征空间，使几何和语义的相似性直接在视觉对应中得以保持。
开发一个全卷积网络，以实现密集、可扩展的特征提取和高效测试。
引入一个对应对比损失，在每对图像中包含数千个对应点时也能高效训练。
提出一个卷积空间变换器，以模拟patch归一化并提高对类内变形的不变性。
在几何和语义匹配基准（KITTI、PASCAL、CUB）上展示最先进的性能。

提出的方法

训练一个全卷积网络，学习一个度量空间，使对应点具有相近的特征，而非对应点通过一个边距 m 被分离。
使用一个对应对比损失，其尺度随每对图像的数千个对应点而扩展，使测试时的遍历复杂度从O(n^2)降低为O(n)。
结合在线困难负样本挖掘，使训练聚焦于信息量最大的负样本。
加入卷积空间变换器，为每个关键点应用独立的空间变换，以实现patch归一化和对仿射畸变的不变性。
密集提取特征，进行通道维的L2规范化，并在测试时在特征空间中执行最近邻匹配。
可选的Siamese/对比变体与消融研究（困难负样本挖掘、空间变换器）以评估各组件贡献。

实验结果

研究问题

RQ1学习到的度量空间是否能直接在刚性和非刚性变形中优化几何和语义对应？
RQ2全卷积架构结合密集特征提取是否能加速对应任务的训练与测试？
RQ3特定于对应的损失和困难负样本挖掘是否能在精确度上优于基于patch相似性的做法？
RQ4卷积空间变换器是否能提高语义匹配中对同一类内形状变异的鲁棒性？
RQ5与手工设计和先前学习方法相比，UCN在标准几何和语义对应基准上的表现如何？

主要发现

UCN 在几何和语义任务上实现了密集且准确的对应，在多个基准上优于先前的方法。
在 KITTI flow 和 MPI-Sintel 上，带有困难负样本挖掘和空间变换器的 UCN 变体达到顶尖性能，例如 MPI-Sintel：Ours-HN 91.5 和 Ours-HN-ST 90.7（PCK 指标）。
KITTI 的结果在表3中显示强劲表现，Ours-HN 86.5 和 Ours-HN-ST 83.4，超越了若干传统和基于CNN的基线。
在 PASCAL-Berkeley 和 CUB 数据集上的语义对应，卷积空间变换器带来显著提升，优于先前方法。
使用 UCN 特征对 KITTI 原始序列进行相机运动估计，得到与稀疏基线相比具竞争力的本质矩阵分解结果。
所提出的方法在不依赖如全局 MRF 优化等后处理的情况下取得优越表现，凸显学习到的度量空间和密集特征的力量。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。