Skip to main content
QUICK REVIEW

[论文解读] Working hard to know your neighbor's margins: Local descriptor learning loss

Anastasiya Mishchuk, Dmytro Mishkin|arXiv (Cornell University)|May 30, 2017
Advanced Image and Video Retrieval Techniques参考文献 25被引用 298
一句话总结

本文提出 HardNet,一种紧凑的 128-D 局部图像描述子,使用一种新颖的损失进行训练,该损失在一个 batch 内最大化最近的正样本与最近的负样本之间的距离,在 patch verification、matching 和 image retrieval 方面达到最先进的结果。

ABSTRACT

We introduce a novel loss for learning local feature descriptors which is inspired by the Lowe's matching criterion for SIFT. We show that the proposed loss that maximizes the distance between the closest positive and closest negative patch in the batch is better than complex regularization methods; it works well for both shallow and deep convolution network architectures. Applying the novel loss to the L2Net CNN architecture results in a compact descriptor -- it has the same dimensionality as SIFT (128) that shows state-of-art performance in wide baseline stereo, patch verification and instance retrieval benchmarks. It is fast, computing a descriptor takes about 1 millisecond on a low-end GPU.

研究动机与目标

  • 通过重新审视传统的 SIFT 风格匹配准则来推动描述子学习。
  • 提出一种简单而有效的损失,聚焦于 batch 内最难的正样本/负样本。
  • 证明该损失能实现一个紧凑的 128-D 描述子,在多项任务上具有出色的性能。
  • 在基准测试如 patch verification、matching、retrieval 和 wide-baseline stereo 等方面,与手工设计和先前学习的描述子相比,展现出竞争力的结果。

提出的方法

  • 基于批次的采样,从每个锚点/正样本对的最近非匹配描述子中形成三元组。
  • 一种三元组边距损失,最小化匹配对之间的距离,同时最大化更困难的非匹配距离,该距离来自一个批次范围内的距离矩阵。
  • 基于 L2Net 的卷积神经网络架构,产生 128-D 的 L2 归一化描述子,未使用池化层,使用 SGD 和标准数据归一化进行训练。
  • HardNet 采用双流架构,在单次前向传播中在 GPU 上计算距离矩阵以为每个锚点/正样本对选择最难的负样本。
  • 对描述子通道不使用额外的相关性惩罚,与某些先前方法形成对比,训练使用 PS: 32x32 灰度补丁,输出为 128-D。

实验结果

研究问题

  • RQ1使用批次困难负样本的、受 SIFT 启发的损失是否能在局部描述子学习中优于常规三元组或对比损失?
  • RQ2一个紧凑的 128-D 描述子是否足以在 patch verification、matching 和 retrieval 基准测试中达到最先进的性能?
  • RQ3所提出的 batch-hard 采样策略如何影响收敛性、泛化能力以及对不同数据集中的干扰项的鲁棒性?
  • RQ4数据集规模和训练数据(如 Brown/HPatches 与其他大型数据集)对描述子质量及对现实世界任务的迁移有何影响?

主要发现

  • 所提出的局部描述子学习损失(hardest-in-batch triplet):在多种损失(softmin、triplet margin、contrastive)上优于随机采样和经典的困难负样本挖掘。
  • HardNet,在 L2Net 架构上使用提议的损失训练,提供在 patch verification、matching 和 retrieval 基准测试中的最先进描述子。
  • HardNet 是一个紧凑的 128-D 描述子,在具有挑战性的 wide-baseline stereo 和跨领域检索任务中也具有竞争力甚至优越的表现。
  • 增大 mini-batch 大小在某一点上提升性能(约 512 附近之后提升不大),原因是观测到更多的难负样本。
  • 使用 hardest-in-batch 采样可减少过拟合并产生稳健的梯度,而随机采样或全数据集的 hard mining 在没有额外正则化的情况下可能导致不稳定性或过拟合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。