[论文解读] UnsuperPoint: End-to-end Unsupervised Interest Point Detector and Descriptor
UnsuperPoint 引入了一种端到端的自监督兴趣点检测器和描述子,能够在没有伪地面真相的情况下学习点的得分、位置和描述符,实现实时性能和具有竞争力的准确性。
It is hard to create consistent ground truth data for interest points in natural images, since interest points are hard to define clearly and consistently for a human annotator. This makes interest point detectors non-trivial to build. In this work, we introduce an unsupervised deep learning-based interest point detector and descriptor. Using a self-supervised approach, we utilize a siamese network and a novel loss function that enables interest point scores and positions to be learned automatically. The resulting interest point detector and descriptor is UnsuperPoint. We use regression of point positions to 1) make UnsuperPoint end-to-end trainable and 2) to incorporate non-maximum suppression in the model. Unlike most trainable detectors, it requires no generation of pseudo ground truth points, no structure-from-motion-generated representations and the model is learned from only one round of training. Furthermore, we introduce a novel loss function to regularize network predictions to be uniformly distributed. UnsuperPoint runs in real-time with 323 frames per second (fps) at a resolution of $224 imes320$ and 90 fps at $480 imes640$. It is comparable or better than state-of-the-art performance when measured for speed, repeatability, localization, matching score and homography estimation on the HPatch dataset.
研究动机与目标
- 阐明在自然图像兴趣点获取一致地面真相的难点,并旨在构建一个无监督的检测器和描述符。
- 开发一个端到端可训练的网络,联合预测点位置、分数和描述符。
- 在不依赖SfM或伪地面真相生成的情况下,利用自监督实现单次训练通过的学习。
- 对预测进行正则化,以实现均匀的空间分布,从而提高鲁棒性和覆盖度。
提出的方法
- 使用共享的CNN主干网络并配备任务特定的子模块,以输出点得分、位置和描述子映射。
- 通过回归预测相对点位置,以实现可微分训练和隐式非极大抑制。
- 采用带随机单应性变换和增强的孪生自监督框架,在不同视图之间创建对应的点对。
- 引入一种新颖的 UnSupervised Point (USP) 损失,对齐点对位置和分数并促进重复性。
- 添加一个均匀的 XY 分布损失,以正则化预测点的空间分布。
- 结合带铰链损失的描述子损失和去相关损失,以学习紧凑、互不相同的描述符。
实验结果
研究问题
- RQ1端到端网络是否能够以自监督方式在没有伪地面真相或 SfM 指引的情况下同时学习兴趣点检测与描述?
- RQ2基于回归的点定位并集成类似NMS的行为是否能够在实时应用中实现有竞争力的速度和准确性?
- RQ3用于均匀点分布和描述符去相关的辅助损失如何影响重复性、定位和匹配?
- RQ4网络内描述符的插值在训练和推理中是否有益?
- RQ5在标准基准如 HPatch 上,相较于最先进的方法,UnsuperPoint 的表现如何?
主要发现
- UnsuperPoint 实现实时性能(在 224x320 时为 323 帧/秒,在 480x640 时为 90 帧/秒),并提供具有竞争力或更优的速度相关指标。
- 该模型在端到端学习点的位置、得分和描述符时,不生成伪地面真相点,也不依赖于基于 SfM 的表示。
- 基于回归的位置预测使网络内实现可微分训练和隐式非极大抑制成为可能。
- 均匀 XY 正则化减少边界聚簇,产生更均匀的空间点分布。
- 描述符插值、均匀点预测以及描述符去相关分别在 HPatch 上提高了重复性、定位准确性和匹配性能。
- 该方法在 HPatch 上在速度、重复性、定位、匹配分数和单应性估计等方面与最先进的检测器相比具有有利的对比。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。