Skip to main content
QUICK REVIEW

[论文解读] Learning Dense Correspondence via 3D-guided Cycle Consistency

Tinghui Zhou, Philipp Krähenbühl|arXiv (Cornell University)|Apr 18, 2016
Human Pose and Action Recognition参考文献 31被引用 27
一句话总结

本文提出一种3D引导的循环一致性框架,用于在无真实标签的情况下学习图像中不同实例之间的密集对应关系。通过利用3D CAD模型生成的合成视图构成四重对应循环,该方法端到端训练CNN,以循环一致性作为监督信号,在无需测试时使用CAD模型的情况下,实现了对应关系和分割迁移任务的最先进性能。

ABSTRACT

Discriminative deep learning approaches have shown impressive results for problems where human-labeled ground truth is plentiful, but what about tasks where labels are difficult or impossible to obtain? This paper tackles one such problem: establishing dense visual correspondence across different object instances. For this task, although we do not know what the ground-truth is, we know it should be consistent across instances of that category. We exploit this consistency as a supervisory signal to train a convolutional neural network to predict cross-instance correspondences between pairs of images depicting objects of the same category. For each pair of training images we find an appropriate 3D CAD model and render two synthetic views to link in with the pair, establishing a correspondence flow 4-cycle. We use ground-truth synthetic-to-synthetic correspondences, provided by the rendering engine, to train a ConvNet to predict synthetic-to-real, real-to-real and real-to-synthetic correspondences that are cycle-consistent with the ground-truth. At test time, no CAD models are required. We demonstrate that our end-to-end trained ConvNet supervised by cycle-consistency outperforms state-of-the-art pairwise matching methods in correspondence-related tasks.

研究动机与目标

  • 解决在缺乏真实标签的情况下,不同物体实例之间的密集对应关系问题。
  • 利用同一3D模型不同视图之间的结构一致性作为训练的监督信号。
  • 开发一种端到端的深度学习框架,使其在推理阶段无需3D模型即可泛化到真实图像。
  • 实现跨域标签迁移,例如从3D形状到真实图像的分割迁移,利用学习到的对应关系。

提出的方法

  • 对于每对真实图像,选择一个3D CAD模型以生成两个合成视图,形成四重循环:真实1 → 真实2 → 合成1 → 合成2 → 真实1。
  • 由渲染引擎提供合成视图之间的真实对应关系,从而实现对循环一致性约束的监督。
  • 网络被训练以最小化预测的真实图像到真实图像的光流与通过合成视图组成的光流之间的差异,从而强制实现循环一致性。
  • 训练目标确保四重循环周围光流的组合能返回到原始点,起到元监督的作用。
  • 网络同时学习预测真实图像到真实图像、真实图像到合成图像以及合成图像到真实图像的对应关系,以循环一致性作为关键损失。
  • 在测试时,仅使用真实图像——无需3D模型或合成视图。

实验结果

研究问题

  • RQ1循环一致性能否作为元监督信号,用于在无真实标签的情况下训练深度网络以实现密集对应?
  • RQ2来自3D CAD模型的合成对应关系能否有效引导真实图像对应关系的学习?
  • RQ3使用3D引导的循环一致性进行端到端训练,是否能优于传统手工设计的方法(如SIFT Flow)在跨实例匹配任务上的表现?
  • RQ4学习到的对应关系网络能否泛化到下游任务(如分割迁移)?
  • RQ5该网络在预测图像之间可匹配区域方面的表现如何?是否优于SIFT Flow?

主要发现

  • 所提方法在PASCAL-Part数据集上的平均可匹配区域预测准确率达到67.8%,显著优于SIFT Flow的57.1%。
  • 在对应关系任务中,该方法优于当前最先进的成对匹配方法(包括SIFT Flow和DSP匹配),且无需真实标签。
  • 网络成功地将分割掩码从3D形状迁移至真实图像,分割迁移实验中结果比SIFT Flow更准确。
  • 该方法在具有挑战性的场景中泛化良好,如细小边界和复杂物体部件,尽管在精确定位可匹配区域方面偶尔存在困难。
  • 利用3D CAD模型作为监督桥梁,有效实现了在外观和视角差异较大的情况下的真实图像对应关系学习。
  • 循环一致性损失可防止出现平凡解,并确保四重循环中预测光流在几何上保持一致,从而提升模型鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。