Skip to main content
QUICK REVIEW

[论文解读] Multimodal Generative Models for Scalable Weakly-Supervised Learning

Mike Wu, Noah D. Goodman|arXiv (Cornell University)|Feb 14, 2018
Multimodal Machine Learning Applications参考文献 22被引用 150
一句话总结

论文介绍 MVAE,一种使用 product-of-experts 推断网络和子采样训练的多模态变分自编码器,学习跨任意模态的联合分布,即使存在缺失数据,达到在参数量更少的情况下的最先进性能,并实现弱监督学习。

ABSTRACT

Multiple modalities often co-occur when describing natural phenomena. Learning a joint representation of these modalities should yield deeper and more useful representations. Previous generative approaches to multi-modal input either do not learn a joint distribution or require additional computation to handle missing data. Here, we introduce a multimodal variational autoencoder (MVAE) that uses a product-of-experts inference network and a sub-sampled training paradigm to solve the multi-modal inference problem. Notably, our model shares parameters to efficiently learn under any combination of missing modalities. We apply the MVAE on four datasets and match state-of-the-art performance using many fewer parameters. In addition, we show that the MVAE is directly applicable to weakly-supervised learning, and is robust to incomplete supervision. We then consider two case studies, one of learning image transformations---edge detection, colorization, segmentation---as a set of modalities, followed by one of machine translation between two languages. We find appealing results across this range of tasks.

研究动机与目标

  • 当数据以多种共现模态进入时,激发学习一个联合的多模态表示。
  • 构建一个高效的推断方案,能够扩展到大量模态且存在缺失数据。
  • 通过利用单模态数据来影响联合分布来实现弱监督下的学习。
  • 在多样的数据集和案例研究中展示该方法,包括视觉-语言和变换。

提出的方法

  • 将多模态 VAE 表述为具有联合潜在变量 z 的模型,在给定 z 的条件下模态条件独立。
  • 使用单模态后验与先验专家来推导 PoE 后验 q(z|X),以处理任意子集的观测模态。
  • 当先验和单模态后验都为高斯时,给出 PoE 的高斯闭式解。
  • 引入一个子采样训练目标,优化全模态、单模态以及多模态子集的随机子集的 ELBO 项,以管理缺失数据和训练效率。
  • 在模态组合之间共享参数,使相同的单模态编码器可以重复使用,无论哪些模态存在。
  • 通过在部分配对数据上训练并将其用于弱监督学习任务,展示对不完全监督的鲁棒性。

实验结果

研究问题

  • RQ1MVAE 是否能够使用单一、共享的推断结构,在存在缺失数据的情况下学习多模态的连贯联合分布?
  • RQ2与替代的多模态推断方案相比,PoE 推断是否提升稳定性和性能?
  • RQ3当只有一部分样例是完全多模态时,MVAE 在弱监督下的表现如何?
  • RQ4MVAE 是否能扩展到大量模态并在多样任务中学习有用的联合表示?

主要发现

  • MVAE 在 MNIST、二值化 MNIST、MultiMNIST、FashionMNIST 和 CelebA 上达到最先进的性能,且使用更少的参数。
  • 具有 18+ 个模态(CelebA 属性作为独立模态)时,受益于共享统计信息。
  • 将变换如上色、边缘检测和分割视为模态,MVAE 有效地学习联合多模态变换。
  • 在弱监督下,MVAE 超过基线并在中等数据规模时仍与全监督模型具有竞争力。
  • MVAE 对缺失模态具有鲁棒性,并在有限配对数据下支持语言之间的翻译学习(弱监督翻译)。
  • 方差分析显示 MVAE 的重要性权重方差低于先前的联合模态模型,表明推断网络更强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。