Skip to main content
QUICK REVIEW

[论文解读] Recurrent Transformer Networks for Semantic Correspondence

Seungryong Kim, Stephen Lin|arXiv (Cornell University)|Oct 29, 2018
Advanced Image and Video Retrieval Techniques参考文献 36被引用 49
一句话总结

RTNs 直接估计图像对之间的局部可变几何变换,并迭代对齐特征以获得密集语义对应,使用弱监督分类损失进行训练。

ABSTRACT

We present recurrent transformer networks (RTNs) for obtaining dense correspondences between semantically similar images. Our networks accomplish this through an iterative process of estimating spatial transformations between the input images and using these transformations to generate aligned convolutional activations. By directly estimating the transformations between an image pair, rather than employing spatial transformer networks to independently normalize each individual image, we show that greater accuracy can be achieved. This process is conducted in a recursive manner to refine both the transformation estimates and the feature representations. In addition, a technique is presented for weakly-supervised training of RTNs that is based on a proposed classification loss. With RTNs, state-of-the-art performance is attained on several benchmarks for semantic correspondence.

研究动机与目标

  • 激发具有大类内变异的语义相似图像之间的密集对应。
  • 提出一种直接估计成对几何形变的方法,而不是独立归一化每个图像。
  • 开发一个递归架构,在迭代中细化变换估计和特征表示。
  • 实现弱监督训练,不依赖真实变换映射,通过源特征与几何对齐目标特征之间的分类损失。

提出的方法

  • 将 RTNs 分成特征提取网络和带有共享权重的几何匹配网络。
  • 在局部搜索窗口内计算相关体积以估计密集仿射变换场。
  • 迭代预测残差变换场以细化几何和对齐特征(K_max 次迭代)。
  • 使用当前估计几何变换对目标特征进行变换,并通过复用整张图像的特征高效提取更新特征。
  • 以弱监督分类损失进行训练,使正确变换的相似度最高,其他情况相似度较低。

实验结果

研究问题

  • RQ1RTNs 能否直接从图像对学习局部可变的仿射场,而无需地面实况变换?
  • RQ2在几何和特征的递归细化是否比单次传递方法提升了语义对应的准确性?
  • RQ3通过分类损失的弱监督如何影响几何场和特征表示的学习?

主要发现

  • RTNs 在语义对应基准上达到比弱监督和监督方法都更先进的性能。
  • 在测试数据集上,该方法在 3–5 次迭代内收敛,较大的搜索窗口在某些点上提高准确性。
  • 联合学习的特征提取和几何匹配网络优于固定的预训练骨干网络。
  • 局部可变几何估计比全局可变方法提供更精确的定位。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。