Skip to main content
QUICK REVIEW

[论文解读] Multimodal Generative Learning Utilizing Jensen-Shannon Divergence

Thomas M. Sutter, Imant Daunhawer|arXiv (Cornell University)|Jun 15, 2020
Music and Audio Processing参考文献 29被引用 7
一句话总结

该论文提出了一种新颖的多模态变分自编码器,采用多模态 Jensen-Shannon 散度(mmJSD)目标函数,联合建模多种数据类型,实现可扩展的自监督学习,并对缺失模态具有鲁棒性。通过引入一种动态先验,统一单模态与联合后验分布,该方法优化了一个有效的 ELBO,并在 CelebA 数据集上实现了生成图像与文本时解耦表征学习和连贯生成的最先进性能。

ABSTRACT

Learning from different data types is a long-standing goal in machine learning research, as multiple information sources co-occur when describing natural phenomena. However, existing generative models that approximate a multimodal ELBO rely on difficult or inefficient training schemes to learn a joint distribution and the dependencies between modalities. In this work, we propose a novel, efficient objective function that utilizes the Jensen-Shannon divergence for multiple distributions. It simultaneously approximates the unimodal and joint multimodal posteriors directly via a dynamic prior. In addition, we theoretically prove that the new multimodal JS-divergence (mmJSD) objective optimizes an ELBO. In extensive experiments, we demonstrate the advantage of the proposed mmJSD model compared to previous work in unsupervised, generative learning tasks.

研究动机与目标

  • 开发一种可扩展的自监督生成模型,用于多种模态,无需监督或复杂的训练方案。
  • 通过在可用数据条件下实现连贯生成与推理,解决模态缺失的挑战。
  • 通过统一目标函数联合建模单模态与多模态后验分布,提升表征学习性能。
  • 在超过两种模态的可扩展、自监督设置中,证明模态特定潜在子空间的有效性。

提出的方法

  • 提出一种基于多模态 Jensen-Shannon 散度(mmJSD)的新目标函数,适用于 M+1 个分布,实现单模态与多模态后验分布的联合优化。
  • 引入一种动态先验,自适应地将来自不同模态的变分后验组合为一个共享的混合分布。
  • 在 mmJSD 中使用混合分布 fM({qν(z)}) 作为参考分布,使模型能够平衡所有可用模态的贡献。
  • 采用变分推断框架,ELBO 由 mmJSD 目标函数导出,确保其保持对对数似然的合法下界。
  • 为图像和文本分别使用模态特定的潜在空间(各 32D),并共享潜在空间以实现联合表征。
  • 使用 ADAM 优化器,学习率为 0.001,训练 100 个周期,批量大小为 256,在 CelebA 上进行端到端优化,无需重要性采样或辅助目标。

实验结果

研究问题

  • RQ1是否可以通过单一目标函数,在无需额外监督或训练目标的情况下,可扩展地联合优化单模态与多模态后验分布?
  • RQ2当模态缺失或不完整时,所提出的 mmJSD 目标函数在学习解耦表征方面的表现如何?
  • RQ3在多模态生成模型中,使用模态特定潜在子空间是否能提升表征质量与生成连贯性?
  • RQ4动态先验机制是否能有效平衡不同模态的贡献,并在缺失数据条件下保持性能?
  • RQ5在多模态数据集上,mmJSD 基于的模型与先前方法相比,在表征质量与生成保真度方面表现如何?

主要发现

  • mmJSD 目标函数在从图像与文本表征中分类属性方面达到最先进或更优性能,所有属性的平均精确率均高于先前方法。
  • 该模型在部分或缺失模态条件下仍能生成连贯且多样化的样本,通过动态先验机制展现出对缺失数据的鲁棒性。
  • 图 8 和图 9 的定量结果表明,mmJSD 模型在表征学习与生成方面均优于先前方法,尤其在“浓密眉毛”和“五点钟阴影”等难分类属性上表现更优。
  • 模型成功在模态特定子空间中学习到解耦表征,生成样本的属性分类准确率较高,证明了这一点。
  • 该方法是首个在超过两种模态的自监督、可扩展设置中,实证验证模态特定子空间优势的工作。
  • 消融研究证实,动态先验与 mmJSD 目标函数对性能至关重要,移除后会导致生成质量与表征质量下降。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。