[论文解读] Learning Factorized Multimodal Representations
本论文提出多模态分解模型(Multimodal Factorization Model,MFM),将表示分解为多模态判别因子和模态特定生成因子,优化联合生成-判别目标以提升预测并实现缺失模态重建。
Learning multimodal representations is a fundamentally complex research problem due to the presence of multiple heterogeneous sources of information. Although the presence of multiple modalities provides additional valuable information, there are two key challenges to address when learning from multimodal data: 1) models must learn the complex intra-modal and cross-modal interactions for prediction and 2) models must be robust to unexpected missing or noisy modalities during testing. In this paper, we propose to optimize for a joint generative-discriminative objective across multimodal data and labels. We introduce a model that factorizes representations into two sets of independent factors: multimodal discriminative and modality-specific generative factors. Multimodal discriminative factors are shared across all modalities and contain joint multimodal features required for discriminative tasks such as sentiment prediction. Modality-specific generative factors are unique for each modality and contain the information required for generating data. Experimental results show that our model is able to learn meaningful multimodal representations that achieve state-of-the-art or competitive performance on six multimodal datasets. Our model demonstrates flexible generative capabilities by conditioning on independent factors and can reconstruct missing modalities without significantly impacting performance. Lastly, we interpret our factorized representations to understand the interactions that influence multimodal learning.
研究动机与目标
- 解决为预测学习丰富的内部模态内及跨模态表示的挑战。
- 开发在测试时模态缺失或嘈杂时仍然鲁棒的模型。
- 将表示分解为共享的多模态判别因子和模态特定的生成因子。
- 通过对独立潜在因子进行条件化,实现灵活的生成与重构。
- 提供对学习到的因子化表示的可解释性。
提出的方法
- 提出多模态因式分解模型(MFM),其潜在变量 Z = [Z_y, Z_a1,...,Z_aM] 生成判别因子 F_y 和模态特定生成因子 F_a{1:M}。
- 分解得到 P(X_hat_{1:M}, Y_hat) = ∫ P(X_hat_{1:M}, Y_hat | F) P(F | Z) P(Z) dF dZ,其中 F_y 和 F_a 分别对应。
- 使用联合分布的Wasserstein距离目标对齐 P(X_{1:M}, Y) 与 P(X_hat_{1:M}, Y_hat),通过广义平均场推断 Q(Z | X_{1:M}, Y) 进行近似。
- 采用代理推断网络在给定观测模态的情况下重建缺失模态并预测标签。
- 使用编码器 Q(Z_y | X_{1:M}) 和 Q(Z_a_i | X_i),以及解码器 G_y、G_a_i、D 和 F_• 进行重构和预测。
- 利用混合目标进行训练,将模态重构损失(生成型)与标签预测损失(判别型)结合。
- 通过与多种多模态编码器(如 MFN、EF-LSTM、TFN)集成,展示对模型无关的适用性。
实验结果
研究问题
- RQ1将多模态表示分解为共享的判别因子和模态特定的生成因子,是否能在不同数据集上提升判别性能?
- RQ2在测试时若某些模态缺失,分解是否能实现健壮的重构与预测?
- RQ3潜在因子在多模态交互和各模态贡献方面提供可解释洞见的程度如何?
- RQ4该方法是否兼容不同的多模态编码器和时间序列模态?
- RQ5对分解以及生成/判别组件的消融对性能有何影响?
主要发现
- MFM 在六个多模态数据集(时间序列和合成图像数据)上实现了最先进或具有竞争力的结果。
- 将表示分解为多模态判别因子和模态特定生成因子,在重构和预测方面均优于基线。
- 该模型在缺失模态重构方面表现出色,预测性能损失适中,在重构和情感预测方面超越纯生成或纯判别基线。
- 将生成性重构与判别性预测相结合的混合目标比纯判别或纯生成变体获得更好的结果。
- 消融研究表明各设计组件均有益处,其中模态特定生成因子与分解表示带来最强的提升。
- 解释方法(信息理论和基于梯度)揭示语言在 CMU-MOSI 的情感预测中的主要贡献,并展示因子对生成输出的影响。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。