Skip to main content
QUICK REVIEW

[论文解读] Learning Latent Subspaces in Variational Autoencoders

Jack Klys, Jake Snell|arXiv (Cornell University)|Dec 14, 2018
Generative Adversarial Networks and Image Synthesis被引用 71
一句话总结

本论文提出 Conditional Subspace VAE(CSVAE),为每个二元标签学习一个低维潜在子空间,以捕捉与标签相关的变化,从而实现对图像属性的易解释性与操作性。

ABSTRACT

Variational autoencoders (VAEs) are widely used deep generative models capable of learning unsupervised latent representations of data. Such representations are often difficult to interpret or control. We consider the problem of unsupervised learning of features correlated to specific labels in a dataset. We propose a VAE-based generative model which we show is capable of extracting features correlated to binary labels in the data and structuring it in a latent subspace which is easy to interpret. Our model, the Conditional Subspace VAE (CSVAE), uses mutual information minimization to learn a low-dimensional latent subspace associated with each label that can easily be inspected and independently manipulated. We demonstrate the utility of the learned representations for attribute manipulation tasks on both the Toronto Face and CelebA datasets.

研究动机与目标

  • 在 VAE 框架内 motivate unsupervised 发现与二进制标签相关的特征。
  • 引入一个潜在空间分割 Z × W,其中每个 W_i 捕捉一个标签特异的子空间。
  • 对 Z 与 Y 之间施加低互信息约束,以解耦标签相关信息。
  • 在 Toronto Faces Dataset(TFD)和 CelebA 数据集上展示属性操作和改进的类内变化建模。

提出的方法

  • 定义联合生成模型 p(x, y, z, w),具有潜在空间 Z 和 W = ∏ W_i,其中每个 W_i 对应一个二元标签 y_i。
  • 推导包含互信息最小化项 I(Y; Z) 的变分下界,以鼓励 Z 与 Y 独立。
  • 实现 q_phi(z, w | x, y) 和 p_theta(x | z, w),并采用包含预测器 q_delta(y | z) 的对抗式目标以最大化条件熵 H(Y|Z)。
  • 对 q_phi、q_gamma、p_theta 使用高斯神经网络,对 q_delta(y | z) 使用分类分布。
  • 将每个 W_i 定位为一个低维子空间(例如 W_i ∈ R^2),以实现可解释的属性操作与切换。
  • 用一个加权目标函数进行训练,结合重建、KL 项和与互信息相关的项,通过 beta 超参数进行调节。

实验结果

研究问题

  • RQ1我们是否可以在 VAE 中以无监督或半监督方式学习与类别特定标签相关联的潜在子空间?
  • RQ2对 Z 和 Y 之间施加低互信息是否会产生可解耦、可操作且与标签相关的子空间?
  • RQ3此类子空间是否能够在真实图像数据集(如 CelebA 与 TFD)中实现更丰富、可控的属性操作?
  • RQ4与 CondVAE 变体相比,CSVAE 在捕捉类内变化和实现属性转移方面表现如何?

主要发现

ModelTFDCelebA-眼镜CelebA-面部毛发
VAE19.08%25.03%49.81%
CondVAE62.97%96.04%88.93%
CondVAE- info62.27%95.16%88.03%
CSVAE (ours)76.23%99.59%97.75%
  • CSVAE 在 TFD 和 CelebA 数据集上在属性操作准确性方面优于基线模型。
  • CSVAE 为每个二元标签学习了一个解耦且易于解释的子空间 W,便于属性转移和风格操作。
  • 定量结果显示 CSVAE 在修改属性后的分类准确性超过 CondVAE 与 CondVAE-info(跨数据集)。
  • 均方误差分析表明,相较于基线,CSVAE 在保持图像质量的同时产生更接近真实值的显著属性变化。
  • 定性结果展示了更丰富的属性种类(如眼镜风格、面部毛发、表情),并在身份之间保持属性风格的一致性。
  • 瑞士卷 toy 示例表明,CSVAE 将类别信息分离到 W,而 Z 的判别性较弱,支持所期望的子空间结构。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。