QUICK REVIEW

[论文解读] LightGlue: Local Feature Matching at Light Speed

Philipp Lindenberger, Paul-Edouard Sarlin|arXiv (Cornell University)|Jun 23, 2023

Human Pose and Action Recognition被引用 11

一句话总结

LightGlue 是一个快速、自适应的深度匹配器，用于稀疏局部特征对应，表现优于以往的稀疏匹配器，同时接近密集匹配器的准确性，具备早停机制和点裁剪以减少计算。

ABSTRACT

We introduce LightGlue, a deep neural network that learns to match local features across images. We revisit multiple design decisions of SuperGlue, the state of the art in sparse matching, and derive simple but effective improvements. Cumulatively, they make LightGlue more efficient - in terms of both memory and computation, more accurate, and much easier to train. One key property is that LightGlue is adaptive to the difficulty of the problem: the inference is much faster on image pairs that are intuitively easy to match, for example because of a larger visual overlap or limited appearance change. This opens up exciting prospects for deploying deep matchers in latency-sensitive applications like 3D reconstruction. The code and trained models are publicly available at https://github.com/cvg/LightGlue.

研究动机与目标

在具有挑战性的条件下为图像对提供高效、准确的稀疏局部特征匹配提供动机。
相对于以往的基于 Transformer 的匹配器（特别是 SuperGlue），提高训练稳定性与速度。
开发一个自适应的、具备深度和宽度感知的架构，在简单对或对在早期就退出并裁剪无用点。
将相似性与匹配性解耦，以实现高效的逐层监督和更快的推理。

提出的方法

使用 L 个相同层的堆叠，包含自注意力和交叉注意力来更新两幅图像的每个点状态。
在自注意力中使用旋转 2D 相对位置编码以在各层之间保持相对几何关系。
计算一个轻量级的对应头，将每个点的匹配性分数与成对相似度分数结合，形成一个软的部分分配 P。
引入一个带有置信度退出准则和点裁剪的自适应深度/宽度机制，以在简单情况上减少计算。
分两阶段训练：先用合成单应性进行对应预测，然后用 MegaDepth 进行真实场景的精炼；使用深度监督以实现早期退出。
通过在多层预测分配并使用轻量头，将匹配与重型最优传输求解器（如基于 Sinkhorn 的方法）解耦。

实验结果

研究问题

RQ1LightGlue 是否能够在不同难度范围内的稀疏特征匹配中，在保持或提升精度的同时减少推理时间？
RQ2架构选择（相对位置编码、双向注意力、匹配性信号、以及早期退出）如何影响准确性、速度和训练稳定性？
RQ3自适应深度/宽度裁剪在真实世界的户外和室内数据集上是否提供实质性的加速而不牺牲匹配质量？
RQ4LightGlue 在下游任务如单应性估计、相对姿态和视觉定位方面，与 SuperGlue 和密集匹配器相比如何？
RQ5将匹配性与相似性解耦对训练动力学和最终性能是否有益？

主要发现

LightGlue 在推理速度上比以往的稀疏匹配器（尤其是 SuperGlue）更快，在所评估的任务中达到具有竞争力甚至更高的精度。
基于置信度的自适应深度/宽度裁剪和早退出显著降低运行时，特别是在简单图像对上，同时保持精度。
双向交叉注意力和相对二维旋转位置编码提高了效率和准确性，完整的双向注意力在不损失准确性的前提下提供了加速。
将相似性与匹配性解耦可获得更干净的梯度，并实现对每一层更快的对应预测，避免昂贵的 Sinkhorn 迭代。
在单应性任务中，LightGlue 提供高精度和有竞争力的召回率，能够通过轻量求解器实现准确的单应性估计；在相对姿态任务中，达到比若干基线更高的姿态精度和更快的推理速度；在户外定位任务中，达到与 SuperGlue 相同的精度但吞吐量显著更高（并在优化后有提升）。
训练方面的好处包括在以合成单应性预训练并在 MegaDepth 上微调时，比 SuperGlue 更快的收敛和更好的召回/精度权衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。