Skip to main content
QUICK REVIEW

[论文解读] Generative Models of Visually Grounded Imagination

Ramakrishna Vedantam, Ian Fischer|arXiv (Cornell University)|May 30, 2017
Multimodal Machine Learning Applications参考文献 21被引用 50
一句话总结

这篇论文将变分自编码器扩展为联合建模图像和属性描述,通过新颖的 TELBO 目标函数和一个基于专家产物的推断网络,实现从部分指定的概念生成,并在 MNIST-A 和 CelebA 上用三件事(正确性、覆盖率、组成性)进行评估。

ABSTRACT

It is easy for people to imagine what a man with pink hair looks like, even if they have never seen such a person before. We call the ability to create images of novel semantic concepts visually grounded imagination. In this paper, we show how we can modify variational auto-encoders to perform this task. Our method uses a novel training objective, and a novel product-of-experts inference network, which can handle partially specified (abstract) concepts in a principled and efficient way. We also propose a set of easy-to-compute evaluation metrics that capture our intuitive notions of what it means to have good visual imagination, namely correctness, coverage, and compositionality (the 3 C's). Finally, we perform a detailed comparison of our method with two existing joint image-attribute VAE methods (the JMVAE method of Suzuki et.al. and the BiVCCA method of Wang et.al.) by applying them to two datasets: the MNIST-with-attributes dataset (which we introduce here), and the CelebA dataset.

研究动机与目标

  • 使能够从抽象或部分指定的属性概念生成图像,使用联合图像-属性 VAE 框架。
  • 引入一个针对成对数据的新训练目标(TELBO)以及适用于完全观测和部分观测输入的灵活推断网络。
  • 通过基于专家产物的后验来在测试时处理缺失属性,以维持潜在表征的良好条件性。
  • 提出以固定属性分类器为基础的评估指标(3C),用于量化生成图像的正确性、覆盖率和组成性。
  • 在 MNIST-with-attributes 与 CelebA 数据集上与现有联合 VAE 方法进行比较,以证明改进。

提出的方法

  • 定义一个联合生成模型 p(x, y, z) = p(z) p(x|z) p(y|z),其中 y 表示为一个属性向量。
  • 将 VAE 训练扩展为 TELBO,优化一个三 ELBO(TELBO),以在共享潜在空间的同时训练图像解码器和属性解码器。
  • 使用三种推断网络 q(z|x,y)、q(z|x)、q(z|y) 以实现带对数据和非对数据的测试时推断。
  • 实现一个专家产物后验 q(z|y_O) ∝ p(z) ∏_{k∈O} q(z|y_k) 以处理部分观测的属性集合。
  • 在训练单模态后验和解码器的同时冻结解码器,从而实现对 TELBO 项的联合优化。
  • 引入对属性的组成性抽象层次,以在不同粒度水平上生成图像。
  • 提出基于固定属性分类器的评估指标(3C),以评估正确性、覆盖率和组成性。

实验结果

研究问题

  • RQ1如何将 VAE 扩展为在多模态设置中联合建模图像和属性向量?
  • RQ2专家产物后验在推断过程中是否能有效处理部分指定(抽象的)属性概念?
  • RQ3提出的 TELBO 目标是否在不同抽象水平和缺失数据下实现稳健学习与生成?
  • RQ4如何用正确性、覆盖率和组成性来量化可视化地基于想象的质量?
  • RQ5所提方法是否在基准数据集如 MNIST-A 与 CelebA 上优于现有的联合 VAE 方法?

主要发现

  • 基于 TELBO 的 JVAE 结合 POE 推断,在 MNIST-A 与 CelebA 上的正确性和覆盖率达到与 BiVCCA 和 JMVAE 相当或更优。
  • POE 后验使潜在空间条件性具有自适应性:更多属性导致后验更窄,能够生成多样但准确的结果。
  • 3C(正确性、覆盖率、组成性)为从抽象概念进行条件图像生成的评估提供了一个实用、客观的框架。
  • 在 MNIST-A 的实验表明 TELBO 与 JMVAE 产生高质量、属性一致的图像,而 BiVCCA 的输出较模糊。
  • 该方法在测试时支持缺失数据,保持良好条件的后验分布和在不同属性完整度下的合理生成。
  • 相较于相关的联合 VAE 方法,所提模型在处理抽象水平和组成性查询方面表现更好,展现出更丰富的生成能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。