[论文解读] Multimodal Generative Models for Scalable Weakly-Supervised Learning
论文介绍 MVAE,一种使用 product-of-experts 推断网络和子采样训练的多模态变分自编码器,学习跨任意模态的联合分布,即使存在缺失数据,达到在参数量更少的情况下的最先进性能,并实现弱监督学习。
Multiple modalities often co-occur when describing natural phenomena. Learning a joint representation of these modalities should yield deeper and more useful representations. Previous generative approaches to multi-modal input either do not learn a joint distribution or require additional computation to handle missing data. Here, we introduce a multimodal variational autoencoder (MVAE) that uses a product-of-experts inference network and a sub-sampled training paradigm to solve the multi-modal inference problem. Notably, our model shares parameters to efficiently learn under any combination of missing modalities. We apply the MVAE on four datasets and match state-of-the-art performance using many fewer parameters. In addition, we show that the MVAE is directly applicable to weakly-supervised learning, and is robust to incomplete supervision. We then consider two case studies, one of learning image transformations---edge detection, colorization, segmentation---as a set of modalities, followed by one of machine translation between two languages. We find appealing results across this range of tasks.
研究动机与目标
- 当数据以多种共现模态进入时,激发学习一个联合的多模态表示。
- 构建一个高效的推断方案,能够扩展到大量模态且存在缺失数据。
- 通过利用单模态数据来影响联合分布来实现弱监督下的学习。
- 在多样的数据集和案例研究中展示该方法,包括视觉-语言和变换。
提出的方法
- 将多模态 VAE 表述为具有联合潜在变量 z 的模型,在给定 z 的条件下模态条件独立。
- 使用单模态后验与先验专家来推导 PoE 后验 q(z|X),以处理任意子集的观测模态。
- 当先验和单模态后验都为高斯时,给出 PoE 的高斯闭式解。
- 引入一个子采样训练目标,优化全模态、单模态以及多模态子集的随机子集的 ELBO 项,以管理缺失数据和训练效率。
- 在模态组合之间共享参数,使相同的单模态编码器可以重复使用,无论哪些模态存在。
- 通过在部分配对数据上训练并将其用于弱监督学习任务,展示对不完全监督的鲁棒性。
实验结果
研究问题
- RQ1MVAE 是否能够使用单一、共享的推断结构,在存在缺失数据的情况下学习多模态的连贯联合分布?
- RQ2与替代的多模态推断方案相比,PoE 推断是否提升稳定性和性能?
- RQ3当只有一部分样例是完全多模态时,MVAE 在弱监督下的表现如何?
- RQ4MVAE 是否能扩展到大量模态并在多样任务中学习有用的联合表示?
主要发现
- MVAE 在 MNIST、二值化 MNIST、MultiMNIST、FashionMNIST 和 CelebA 上达到最先进的性能,且使用更少的参数。
- 具有 18+ 个模态(CelebA 属性作为独立模态)时,受益于共享统计信息。
- 将变换如上色、边缘检测和分割视为模态,MVAE 有效地学习联合多模态变换。
- 在弱监督下,MVAE 超过基线并在中等数据规模时仍与全监督模型具有竞争力。
- MVAE 对缺失模态具有鲁棒性,并在有限配对数据下支持语言之间的翻译学习(弱监督翻译)。
- 方差分析显示 MVAE 的重要性权重方差低于先前的联合模态模型,表明推断网络更强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。