[论文解读] Learning Relationships between Text, Audio, and Video via Deep Canonical Correlation for Multimodal Language Analysis
本文提出交互式典型相关网络(ICCN),一种深度学习模型,通过使用深度典型相关分析(DCCA)学习基于文本的音频与基于文本的视频特征之间的非线性相关性,从而增强多模态情感与情绪分析。通过利用外积交互作用和典型相关分析(CCA)损失,ICCN在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上超越基线方法,表明建模基于文本的音频与视频之间的隐藏关系,可显著提升多模态表征学习效果,优于简单的拼接或余弦相似度方法。
Multimodal language analysis often considers relationships between features based on text and those based on acoustical and visual properties. Text features typically outperform non-text features in sentiment analysis or emotion recognition tasks in part because the text features are derived from advanced language models or word embeddings trained on massive data sources while audio and video features are human-engineered and comparatively underdeveloped. Given that the text, audio, and video are describing the same utterance in different ways, we hypothesize that the multimodal sentiment analysis and emotion recognition can be improved by learning (hidden) correlations between features extracted from the outer product of text and audio (we call this text-based audio) and analogous text-based video. This paper proposes a novel model, the Interaction Canonical Correlation Network (ICCN), to learn such multimodal embeddings. ICCN learns correlations between all three modes via deep canonical correlation analysis (DCCA) and the proposed embeddings are then tested on several benchmark datasets and against other state-of-the-art multimodal embedding algorithms. Empirical results and ablation studies confirm the effectiveness of ICCN in capturing useful information from all three views.
研究动机与目标
- 解决多模态情感与情绪识别中,文本模态与其他非文本模态之间性能不平衡的问题。
- 通过在共享文本上下文条件下捕捉非文本模态之间的隐藏相关性,改进多模态表征学习。
- 通过使用深度神经网络和外积交互作用,克服线性CCA与简单特征拼接的局限性。
- 验证建模基于文本的音频与基于文本的视频交互关系,可提升下游分类性能。
- 证明典型相关分析优于余弦相似度,作为跨模态对齐的目标函数。
提出的方法
- 该模型构建外积矩阵 $T \otimes A$ 和 $T \otimes V$,分别表示文本与音频之间、文本与视频之间的交互关系。
- 两个卷积神经网络(CNN)处理外积矩阵,以提取基于文本的音频与基于文本的视频的高层特征。
- 一个深度典型相关分析(DCCA)层通过共享投影空间,强制两个CNN输出之间的最大相关性。
- CCA损失函数通过端到端方式优化,联合训练CNN与投影层,以最大化典型相关性。
- 最终的多模态嵌入通过将原始文本嵌入与经过DCCA处理的基于文本的音频和视频特征拼接而成。
- 该模型在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上进行训练与评估,使用标准的情感与情绪分类指标。
实验结果
研究问题
- RQ1学习基于文本的音频与基于文本的视频之间的隐藏相关性,能否提升多模态情感与情绪识别性能?
- RQ2与直接拼接相比,使用文本与非文本模态之间的外积交互是否能提升特征表示能力?
- RQ3在此情境下,深度典型相关分析(DCCA)是否比余弦相似度更有效地对齐多模态特征?
- RQ4ICCN模型在性能与鲁棒性方面,相较于最先进多模态融合方法表现如何?
- RQ5各组件(如外积、CCA损失、文本条件)对最终性能的贡献分别是什么?
主要发现
- ICCN在CMU-MOSI、CMU-MOSEI和IEMOCAP数据集上达到最先进性能,优于单模态基线与多模态融合方法。
- 使用CCA损失可使基于文本的音频与视频特征之间的典型相关性显著高于使用余弦相似度损失,后者并未优化相同目标。
- 消融实验表明,与文本结合的外积至关重要,即使使用DCCA,若去除该设计,性能仍会下降。
- 最大化典型相关性不会提升余弦相似度,反之亦然,证明CCA捕捉的是独特且非冗余的关系。
- 采用CCA损失的模型在下游任务中性能优于使用余弦相似度损失的相同模型,验证了所选目标函数的有效性。
- ICCN优于其他基于CCA的方法以及如TFN、LMF和MFM等基于神经网络的最先进模型,展现出其鲁棒性与泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。