QUICK REVIEW

[论文解读] Generative Models of Visually Grounded Imagination

Ramakrishna Vedantam, Ian Fischer|arXiv (Cornell University)|May 30, 2017

Multimodal Machine Learning Applications参考文献 21被引用 50

一句话总结

这篇论文将变分自编码器扩展为联合建模图像和属性描述，通过新颖的 TELBO 目标函数和一个基于专家产物的推断网络，实现从部分指定的概念生成，并在 MNIST-A 和 CelebA 上用三件事（正确性、覆盖率、组成性）进行评估。

ABSTRACT

It is easy for people to imagine what a man with pink hair looks like, even if they have never seen such a person before. We call the ability to create images of novel semantic concepts visually grounded imagination. In this paper, we show how we can modify variational auto-encoders to perform this task. Our method uses a novel training objective, and a novel product-of-experts inference network, which can handle partially specified (abstract) concepts in a principled and efficient way. We also propose a set of easy-to-compute evaluation metrics that capture our intuitive notions of what it means to have good visual imagination, namely correctness, coverage, and compositionality (the 3 C's). Finally, we perform a detailed comparison of our method with two existing joint image-attribute VAE methods (the JMVAE method of Suzuki et.al. and the BiVCCA method of Wang et.al.) by applying them to two datasets: the MNIST-with-attributes dataset (which we introduce here), and the CelebA dataset.

研究动机与目标

使能够从抽象或部分指定的属性概念生成图像，使用联合图像-属性 VAE 框架。
引入一个针对成对数据的新训练目标（TELBO）以及适用于完全观测和部分观测输入的灵活推断网络。
通过基于专家产物的后验来在测试时处理缺失属性，以维持潜在表征的良好条件性。
提出以固定属性分类器为基础的评估指标（3C），用于量化生成图像的正确性、覆盖率和组成性。
在 MNIST-with-attributes 与 CelebA 数据集上与现有联合 VAE 方法进行比较，以证明改进。

提出的方法

定义一个联合生成模型 p(x, y, z) = p(z) p(x|z) p(y|z)，其中 y 表示为一个属性向量。
将 VAE 训练扩展为 TELBO，优化一个三 ELBO（TELBO），以在共享潜在空间的同时训练图像解码器和属性解码器。
使用三种推断网络 q(z|x,y)、q(z|x)、q(z|y) 以实现带对数据和非对数据的测试时推断。
实现一个专家产物后验 q(z|y_O) ∝ p(z) ∏_{k∈O} q(z|y_k) 以处理部分观测的属性集合。
在训练单模态后验和解码器的同时冻结解码器，从而实现对 TELBO 项的联合优化。
引入对属性的组成性抽象层次，以在不同粒度水平上生成图像。
提出基于固定属性分类器的评估指标（3C），以评估正确性、覆盖率和组成性。

实验结果

研究问题

RQ1如何将 VAE 扩展为在多模态设置中联合建模图像和属性向量？
RQ2专家产物后验在推断过程中是否能有效处理部分指定（抽象的）属性概念？
RQ3提出的 TELBO 目标是否在不同抽象水平和缺失数据下实现稳健学习与生成？
RQ4如何用正确性、覆盖率和组成性来量化可视化地基于想象的质量？
RQ5所提方法是否在基准数据集如 MNIST-A 与 CelebA 上优于现有的联合 VAE 方法？

主要发现

基于 TELBO 的 JVAE 结合 POE 推断，在 MNIST-A 与 CelebA 上的正确性和覆盖率达到与 BiVCCA 和 JMVAE 相当或更优。
POE 后验使潜在空间条件性具有自适应性：更多属性导致后验更窄，能够生成多样但准确的结果。
3C（正确性、覆盖率、组成性）为从抽象概念进行条件图像生成的评估提供了一个实用、客观的框架。
在 MNIST-A 的实验表明 TELBO 与 JMVAE 产生高质量、属性一致的图像，而 BiVCCA 的输出较模糊。
该方法在测试时支持缺失数据，保持良好条件的后验分布和在不同属性完整度下的合理生成。
相较于相关的联合 VAE 方法，所提模型在处理抽象水平和组成性查询方面表现更好，展现出更丰富的生成能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。