QUICK REVIEW

[论文解读] LF-Net: Learning Local Features from Images

Y. Ono, Eduard Trulls|arXiv (Cornell University)|May 24, 2018

Image Retrieval and Classification Techniques被引用 223

一句话总结

LF-Net 提出了一种两分支自监督架构，能够从具有已知深度/位姿的图像对端到端学习完整的局部特征管线，在稀疏匹配方面达到最前沿水平，并在 QVGA 图像上以 60+ fps 的速度运行。

ABSTRACT

We present a novel deep architecture and a training strategy to learn a local feature pipeline from scratch, using collections of images without the need for human supervision. To do so we exploit depth and relative camera pose cues to create a virtual target that the network should achieve on one image, provided the outputs of the network for the other image. While this process is inherently non-differentiable, we show that we can optimize the network in a two-branch setup by confining it to one branch, while preserving differentiability in the other. We train our method on both indoor and outdoor datasets, with depth data from 3D sensors for the former, and depth estimates from an off-the-shelf Structure-from-Motion solution for the latter. Our models outperform the state of the art on sparse feature matching on both datasets, while running at 60+ fps for QVGA images.

研究动机与目标

从零开始学习局部特征提取管线，且不使用手工设计的检测器。
使用深度和相对位姿为训练创建虚拟监督目标。
结合可微分与不可微分的分支以实现端到端学习。
在室内和室外数据集上展示强劲的稀疏匹配性能。
展示适用于实时应用的快速推理。

提出的方法

LF-Net 包含一个输出尺度空间分数图、密集方向以及用于关键点周围补丁的描述子网络的检测器。
训练使用处理两张图像的两个相同网络分支；右分支通过与真实几何信息的透视变换对齐，向左分支提供一个不可微的监督信号。
一个可微分采样器（STN）在检测到的关键点周围裁剪补丁用于描述子学习。
尺度空间关键点检测使用多尺度特征图，结合软非极大值抑制和 softargmax 以实现亚像素精度。
方向通过共享特征图通过一个 5x5 卷积预测，产生正弦/余弦分量。
描述子是 256-D，进行 L2 归一化，通过基于补丁的描述子损失学习（带难负样本挖掘的三元组损失）。
训练损失包括对扭曲后的分数图的图像级损失、跨视图对齐描述子的补丁级损失，以及强制尺度/方向一致性的几何损失。

实验结果

研究问题

RQ1LF-Net 能否在不使用手工设计检测器的情况下端到端学习具有判别性的关键点和描述子？
RQ2怎样在端到端学习中引入不可微的、基于透视变换的监督？
RQ3LF-Net 的训练策略是否能推广到具有深度输入的室内/室外数据集？
RQ4与传统方法和学习基线相比，LF-Net 在稀疏特征匹配上的性能如何，以及它的运行时？
RQ5检测器和描述子的联合训练如何影响整体匹配性能？

主要发现

LF-Net 在室内（ScanNet）和室外（photo-tourism）数据集上实现了最前沿的稀疏特征匹配。
在室外数据上，LF-Net 在匹配分数上相对于 SuperPoint 提升了 9% 相对值，相对于 LIFT 提升了 45% 相对值（含/不含旋转缩放增强）。
在室内数据上，LF-Net 与 SuperPoint 在短基线序列上相当，且在使用旋转/缩放时显著超过 SURF。
LF-Net 对于 QVGA（320x240）帧大约以 60 fps 运行，并在典型 GPU（如 Titan X）上实现实时性能。
在两分枝设置中联合训练检测器和描述子相较于分别训练它们，带来一致的提升（例如户外消融实验显示约 7% 的相对提升）。
该方法在室内/室外设置上都具有鲁棒性，尽管室内深度噪声会影响深度设备（如 Kinect）产生的不完整地图。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。