QUICK REVIEW

[论文解读] Multimodal Generative Models for Scalable Weakly-Supervised Learning

Mike Wu, Noah D. Goodman|arXiv (Cornell University)|Feb 14, 2018

Multimodal Machine Learning Applications参考文献 22被引用 150

一句话总结

论文介绍 MVAE，一种使用 product-of-experts 推断网络和子采样训练的多模态变分自编码器，学习跨任意模态的联合分布，即使存在缺失数据，达到在参数量更少的情况下的最先进性能，并实现弱监督学习。

ABSTRACT

Multiple modalities often co-occur when describing natural phenomena. Learning a joint representation of these modalities should yield deeper and more useful representations. Previous generative approaches to multi-modal input either do not learn a joint distribution or require additional computation to handle missing data. Here, we introduce a multimodal variational autoencoder (MVAE) that uses a product-of-experts inference network and a sub-sampled training paradigm to solve the multi-modal inference problem. Notably, our model shares parameters to efficiently learn under any combination of missing modalities. We apply the MVAE on four datasets and match state-of-the-art performance using many fewer parameters. In addition, we show that the MVAE is directly applicable to weakly-supervised learning, and is robust to incomplete supervision. We then consider two case studies, one of learning image transformations---edge detection, colorization, segmentation---as a set of modalities, followed by one of machine translation between two languages. We find appealing results across this range of tasks.

研究动机与目标

当数据以多种共现模态进入时，激发学习一个联合的多模态表示。
构建一个高效的推断方案，能够扩展到大量模态且存在缺失数据。
通过利用单模态数据来影响联合分布来实现弱监督下的学习。
在多样的数据集和案例研究中展示该方法，包括视觉-语言和变换。

提出的方法

将多模态 VAE 表述为具有联合潜在变量 z 的模型，在给定 z 的条件下模态条件独立。
使用单模态后验与先验专家来推导 PoE 后验 q(z|X)，以处理任意子集的观测模态。
当先验和单模态后验都为高斯时，给出 PoE 的高斯闭式解。
引入一个子采样训练目标，优化全模态、单模态以及多模态子集的随机子集的 ELBO 项，以管理缺失数据和训练效率。
在模态组合之间共享参数，使相同的单模态编码器可以重复使用，无论哪些模态存在。
通过在部分配对数据上训练并将其用于弱监督学习任务，展示对不完全监督的鲁棒性。

实验结果

研究问题

RQ1MVAE 是否能够使用单一、共享的推断结构，在存在缺失数据的情况下学习多模态的连贯联合分布？
RQ2与替代的多模态推断方案相比，PoE 推断是否提升稳定性和性能？
RQ3当只有一部分样例是完全多模态时，MVAE 在弱监督下的表现如何？
RQ4MVAE 是否能扩展到大量模态并在多样任务中学习有用的联合表示？

主要发现

MVAE 在 MNIST、二值化 MNIST、MultiMNIST、FashionMNIST 和 CelebA 上达到最先进的性能，且使用更少的参数。
具有 18+ 个模态（CelebA 属性作为独立模态）时，受益于共享统计信息。
将变换如上色、边缘检测和分割视为模态，MVAE 有效地学习联合多模态变换。
在弱监督下，MVAE 超过基线并在中等数据规模时仍与全监督模型具有竞争力。
MVAE 对缺失模态具有鲁棒性，并在有限配对数据下支持语言之间的翻译学习（弱监督翻译）。
方差分析显示 MVAE 的重要性权重方差低于先前的联合模态模型，表明推断网络更强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。