Skip to main content
QUICK REVIEW

[论文解读] Deforming Autoencoders: Unsupervised Disentangling of Shape and Appearance

Zhixin Shu, Mihir Sahasrabudhe|arXiv (Cornell University)|Jun 18, 2018
Face recognition and analysis参考文献 39被引用 89
一句话总结

本论文提出 Deforming Autoencoders,在无监督的方式下将形状(变形)与外观(纹理)解耦,从而实现无监督对齐、形状/外观插值,以及内在着色/反照率分解。

ABSTRACT

In this work we introduce Deforming Autoencoders, a generative model for images that disentangles shape from appearance in an unsupervised manner. As in the deformable template paradigm, shape is represented as a deformation between a canonical coordinate system (`template') and an observed image, while appearance is modeled in `canonical', template, coordinates, thus discarding variability due to deformations. We introduce novel techniques that allow this approach to be deployed in the setting of autoencoders and show that this method can be used for unsupervised group-wise image alignment. We show experiments with expression morphing in humans, hands, and digits, face manipulation, such as shape and appearance interpolation, as well as unsupervised landmark localization. A more powerful form of unsupervised disentangling becomes possible in template coordinates, allowing us to successfully decompose face images into shading and albedo, and further manipulate face images.

研究动机与目标

  • 在不使用监督的情况下,使用可变形模板范式实现形状与外观的解耦。
  • 将图像生成建模为在规范空间中的纹理合成再加上对图像坐标的学习变形。
  • 实现无监督的对齐、形状/外观的插值,以及内在着色/再光照分解。
  • 探索对类别有意识的变形建模和可微分的变形约束,以改善训练与结果。

提出的方法

  • 将图像编码为一个紧凑潜在向量 Z,分离为 ZT(外观)和 ZS(形状)。
  • 使用两个解码器从 ZT 和 ZS 合成外观 T 和变形场 W,然后通过空间变换层对 T 进行 W 变形再重构 I。
  • 用仿射 ST 层表示全局变形,并用一个微分解码器预测空间梯度 ∇xW 和 ∇yW,随后通过空间积分得到 W 的非刚性场。
  • 在变形梯度上应用 ReLU(或 HardTanh)以强制局部一致且不翻转的变形,防止折叠。
  • 可选地包含一个类有意识的潜在分量 ZC,以条件化外观和形状解码器用于多类别数据。
  • 扩展为 Intrinsic Deforming Autoencoder(Intrinsic-DAE),具有单独的着色 S 和反照率 A 解码器,将纹理建模为 T = S ∘ A,并通过 ∇S 正则化来强制平滑着色;可选使用对抗损失(PatchGAN)以提升真实感。
  • 以重建损失为训练目标,结合对扭曲的正则化项(平滑性与偏置降低),以及在激活时的着色与对抗损失。

实验结果

研究问题

  • RQ1在无监督自编码器中通过显式建模变形场和规范纹理空间,是否可以实现形状与外观的解耦?
  • RQ2引入可微分、正则化的变形是否能在无监督设定中提升图像对齐、插值质量以及特征点定位?
  • RQ3类别信息是否能够提升 Deforming Autoencoder 的多模态外观建模?
  • RQ4在模板空间对图像进行对齐时,是否能够实现对着色和反照率的无监督分解?

主要发现

  • DAE 通过将纹理在规范空间中的重建并由学习的变形进行扭曲,实现了形状与外观的有效解耦。
  • 基于类别的 Deforming Autoencoder 提升了多类别外观建模并产生更清晰的图像。
  • Intrinsic-DAE 实现了无监督的着色与反照率分解,并支持重新着色/模拟光照变化。
  • 无监督对齐是可行的,与自监督方法相比在关键点定位精度方面具有竞争力。
  • 变形场学习为改进无监督的特征点检测与图像配准任务搭建了桥梁。
  • 对抗性训练在 Intrinsic-DAE 中提升了视觉清晰度,同时不影响变形、着色与反照率的解耦。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。