Skip to main content
QUICK REVIEW

[论文解读] Found in Translation: Learning Robust Joint Representations by Cyclic Translations Between Modalities

Hai Pham, Paul Pu Liang|arXiv (Cornell University)|Dec 19, 2018
Sentiment Analysis and Opinion Mining参考文献 60被引用 38
一句话总结

本文提出多模态循环翻译网络(MCTN),一种通过语言、视觉和音频模态之间的循环序列到序列翻译来学习鲁棒联合多模态表征的方法。通过使用配对的多模态数据进行训练并强制执行循环一致性,MCTN 只需在测试时使用源模态即可实现情感预测,在 CMU-MOSI、ICT-MMMO 和 YouTube 数据集上实现了最先进性能,同时对缺失或噪声模态保持鲁棒性。

ABSTRACT

Multimodal sentiment analysis is a core research area that studies speaker sentiment expressed from the language, visual, and acoustic modalities. The central challenge in multimodal learning involves inferring joint representations that can process and relate information from these modalities. However, existing work learns joint representations by requiring all modalities as input and as a result, the learned representations may be sensitive to noisy or missing modalities at test time. With the recent success of sequence to sequence (Seq2Seq) models in machine translation, there is an opportunity to explore new ways of learning joint representations that may not require all input modalities at test time. In this paper, we propose a method to learn robust joint representations by translating between modalities. Our method is based on the key insight that translation from a source to a target modality provides a method of learning joint representations using only the source modality as input. We augment modality translations with a cycle consistency loss to ensure that our joint representations retain maximal information from all modalities. Once our translation model is trained with paired multimodal data, we only need data from the source modality at test time for final sentiment prediction. This ensures that our model remains robust from perturbations or missing information in the other modalities. We train our model with a coupled translation-prediction objective and it achieves new state-of-the-art results on multimodal sentiment analysis datasets: CMU-MOSI, ICT-MMMO, and YouTube. Additional experiments show that our model learns increasingly discriminative joint representations with more input modalities while maintaining robustness to missing or perturbed modalities.

研究动机与目标

  • 解决多模态情感分析中学习鲁棒联合表征的挑战,确保在测试时输入模态存在噪声或缺失的情况下仍保持有效性。
  • 克服现有方法在推理时需要所有模态的局限性,从而降低对数据扰动的敏感性。
  • 借鉴序列到序列模型在机器翻译中的成功经验,通过跨模态翻译学习联合表征。
  • 通过强制执行翻译过程中的循环一致性,确保联合表征保留所有模态的最大信息量。
  • 通过耦合的翻译-预测目标实现端到端训练,以提升判别能力,同时保持鲁棒性。

提出的方法

  • 提出一种多模态循环翻译网络(MCTN),通过源模态与目标模态之间的双向序列到序列翻译学习联合表征。
  • 通过训练前向翻译(源 → 目标)和反向翻译(预测目标 → 源),强制执行循环一致性,确保对称性和信息保留。
  • 为前向和反向翻译使用共享的 Seq2Seq 架构,以减少过拟合并促进统一的联合表征。
  • 提出一种分层 MCTN 变体,执行两阶段翻译:首先在源模态与一个目标模态之间进行,然后从中间表征到第二个目标模态。
  • 使用结合循环翻译损失和情感预测损失的耦合损失进行端到端训练,以确保任务特定的判别能力。
  • 允许在预训练后仅使用源模态进行推理,使模型在测试时对缺失或受损的目标模态具有鲁棒性。

实验结果

研究问题

  • RQ1模态之间的循环翻译在多大程度上提升了联合多模态表征的鲁棒性和判别质量?
  • RQ2在循环框架中,使用单个共享的 Seq2Seq 模型与使用两个独立模型分别处理前向和反向翻译相比,其影响如何?
  • RQ3源模态和目标模态的选择如何影响联合表征学习的性能?
  • RQ4在三模态设置中,使用分层两级翻译相较于从源模态直接到目标模态的单次翻译,其优势是什么?
  • RQ5在训练期间增加输入模态的数量在多大程度上提升了所学习联合表征的判别能力?

主要发现

  • 使用循环翻译的模型(如带循环一致性的 MCTN)在双模态和三模态设置中均优于所有基线模型,尤其在三模态情况下性能差距最大。
  • 采用两级循环翻译的分层 MCTN(图 4(e))相比从拼接模态直接翻译的模型(图 4(h))表现更优,证明了递归表征学习的优势。
  • 使用单个共享的 Seq2Seq 模型处理前向和反向翻译,性能优于使用两个独立模型,可能归因于更低的过拟合风险和更优的参数共享。
  • 语言模态始终对联合表征贡献最大;以语言模态作为源模态的模型表现最佳,尤其在与视觉模态结合时。
  • 随着训练时输入模态数量的增加,模型学习到的联合表征判别能力不断增强,同时在测试时对缺失或受损模态保持鲁棒性。
  • MCTN 在 CMU-MOSI、ICT-MMMO 和 YouTube 多模态情感分析数据集上取得了新的最先进结果,证实了所提框架的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。