Skip to main content
QUICK REVIEW

[论文解读] Unsupervised Learning of Object Landmarks through Conditional Image Generation

Tomáš Jakab, Ankush Gupta|arXiv (Cornell University)|Jun 20, 2018
Face recognition and analysis被引用 104
一句话总结

本论文通过将图像生成条件化为两张图像(源图像和目标图像)并强制几何焦点瓶颈来产生稳定的关键点,从而实现无监督的地标检测,在人脸、身体和3D对象上取得强大的无监督地标检测。

ABSTRACT

We propose a method for learning landmark detectors for visual objects (such as the eyes and the nose in a face) without any manual supervision. We cast this as the problem of generating images that combine the appearance of the object as seen in a first example image with the geometry of the object as seen in a second example image, where the two examples differ by a viewpoint change and/or an object deformation. In order to factorize appearance and geometry, we introduce a tight bottleneck in the geometry-extraction process that selects and distils geometry-related features. Compared to standard image generation problems, which often use generative adversarial networks, our generation task is conditioned on both appearance and geometry and thus is significantly less ambiguous, to the point that adopting a simple perceptual loss formulation is sufficient. We demonstrate that our approach can learn object landmarks from synthetic image deformations or videos, all without manual supervision, while outperforming state-of-the-art unsupervised landmark detectors. We further show that our method is applicable to a large variety of datasets - faces, people, 3D objects, and digits - without any modifications.

研究动机与目标

  • 对于可变形对象类别(人脸、身体、3D对象)无需手动注释即可进行地标检测的动机。
  • 提出一个条件图像生成框架,将外观与几何因素分解以诱导地标表示。
  • 证明紧密的几何瓶颈在多样数据集上产生语义上有意义的地标。
  • 表明感知损失足以在没有对抗训练的情况下实现高质量重建。
  • 在多个数据集上进行评估,以建立学习到的地标的普遍性和鲁棒性。

提出的方法

  • 提出一个双图像条件生成器,它从源图像和提取的几何表示重建目标图像。
  • 使用 heatmap 瓶颈 Phi ,它从目标图像输出 K 个空间热图,这些热图被软边缘化以产生地标坐标。
  • 将热图转换为高斯状的地标表示,以供生成器输入。
  • 通过最小化真实目标与生成目标之间的感知重建损失,联同 Phi 和图像生成器 Psi 共同训练。
  • 为效率采用可分离实现,并使用基于预训练网络(如 VGG-19)的感知损失来引导重建。
  • 证明该模型可从合成畸变和原始视频数据中学习,无需对应关系或光流。

实验结果

研究问题

  • RQ1通过将条件图像生成任务限制为聚焦几何,是否可以学习无监督的地标检测器?
  • RQ2在没有监督的情况下,学习到的地标在面部、人体和3D对象上泛化的程度如何?
  • RQ3将信息流限制在类似地标的瓶颈中,是否可以防止退化解并实现有意义的几何编码?
  • RQ4在两张图像条件生成设置中,感知损失是否足以实现高质量重建?

主要发现

  • 通过条件生成框架学习的无监督地标在变形和身份变化中跟踪语义意义的面部和身体特征。
  • 与受监督和以往的无监督方法相比,该方法在 MAFL 和 AFLW 上获得具有竞争力甚至更优秀的地标检测性能,样本效率有显著提升。
  • 使用自监督感知损失和 30 个无监督地标,在 CelebA 上训练后对 MAFL 的回归到 5 个人工标注地标可达到强准确性(标准化均方误差 2.58%, MAFL;AFLW 6.31%, 标准化均方误差),VoxCeleb 数据显示鲁棒性但存在领域差距。
  • 该方法支持为多种数据类型学习地标(面孔、人类、3D对象、数字)而无需特定任务修改。
  • 消融研究表明去除关键点瓶颈或改为像素级损失会降低地标质量;感知损失在该设置中优于带/不带对抗项的 L1/L2。
  • 出现了外观与几何的解耦:源图像提供风格,而目标图像在生成输出中提供几何。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。