[论文解读] Generative Models of Visually Grounded Imagination
这篇论文将变分自编码器扩展为联合建模图像和属性描述,通过新颖的 TELBO 目标函数和一个基于专家产物的推断网络,实现从部分指定的概念生成,并在 MNIST-A 和 CelebA 上用三件事(正确性、覆盖率、组成性)进行评估。
It is easy for people to imagine what a man with pink hair looks like, even if they have never seen such a person before. We call the ability to create images of novel semantic concepts visually grounded imagination. In this paper, we show how we can modify variational auto-encoders to perform this task. Our method uses a novel training objective, and a novel product-of-experts inference network, which can handle partially specified (abstract) concepts in a principled and efficient way. We also propose a set of easy-to-compute evaluation metrics that capture our intuitive notions of what it means to have good visual imagination, namely correctness, coverage, and compositionality (the 3 C's). Finally, we perform a detailed comparison of our method with two existing joint image-attribute VAE methods (the JMVAE method of Suzuki et.al. and the BiVCCA method of Wang et.al.) by applying them to two datasets: the MNIST-with-attributes dataset (which we introduce here), and the CelebA dataset.
研究动机与目标
- 使能够从抽象或部分指定的属性概念生成图像,使用联合图像-属性 VAE 框架。
- 引入一个针对成对数据的新训练目标(TELBO)以及适用于完全观测和部分观测输入的灵活推断网络。
- 通过基于专家产物的后验来在测试时处理缺失属性,以维持潜在表征的良好条件性。
- 提出以固定属性分类器为基础的评估指标(3C),用于量化生成图像的正确性、覆盖率和组成性。
- 在 MNIST-with-attributes 与 CelebA 数据集上与现有联合 VAE 方法进行比较,以证明改进。
提出的方法
- 定义一个联合生成模型 p(x, y, z) = p(z) p(x|z) p(y|z),其中 y 表示为一个属性向量。
- 将 VAE 训练扩展为 TELBO,优化一个三 ELBO(TELBO),以在共享潜在空间的同时训练图像解码器和属性解码器。
- 使用三种推断网络 q(z|x,y)、q(z|x)、q(z|y) 以实现带对数据和非对数据的测试时推断。
- 实现一个专家产物后验 q(z|y_O) ∝ p(z) ∏_{k∈O} q(z|y_k) 以处理部分观测的属性集合。
- 在训练单模态后验和解码器的同时冻结解码器,从而实现对 TELBO 项的联合优化。
- 引入对属性的组成性抽象层次,以在不同粒度水平上生成图像。
- 提出基于固定属性分类器的评估指标(3C),以评估正确性、覆盖率和组成性。
实验结果
研究问题
- RQ1如何将 VAE 扩展为在多模态设置中联合建模图像和属性向量?
- RQ2专家产物后验在推断过程中是否能有效处理部分指定(抽象的)属性概念?
- RQ3提出的 TELBO 目标是否在不同抽象水平和缺失数据下实现稳健学习与生成?
- RQ4如何用正确性、覆盖率和组成性来量化可视化地基于想象的质量?
- RQ5所提方法是否在基准数据集如 MNIST-A 与 CelebA 上优于现有的联合 VAE 方法?
主要发现
- 基于 TELBO 的 JVAE 结合 POE 推断,在 MNIST-A 与 CelebA 上的正确性和覆盖率达到与 BiVCCA 和 JMVAE 相当或更优。
- POE 后验使潜在空间条件性具有自适应性:更多属性导致后验更窄,能够生成多样但准确的结果。
- 3C(正确性、覆盖率、组成性)为从抽象概念进行条件图像生成的评估提供了一个实用、客观的框架。
- 在 MNIST-A 的实验表明 TELBO 与 JMVAE 产生高质量、属性一致的图像,而 BiVCCA 的输出较模糊。
- 该方法在测试时支持缺失数据,保持良好条件的后验分布和在不同属性完整度下的合理生成。
- 相较于相关的联合 VAE 方法,所提模型在处理抽象水平和组成性查询方面表现更好,展现出更丰富的生成能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。