QUICK REVIEW

[论文解读] Multimodal Utterance-level Affect Analysis using Visual, Audio and Text Features

Didan Deng, Yuqian Zhou|arXiv (Cornell University)|May 2, 2018

Emotion and Mood Recognition参考文献 23被引用 32

一句话总结

该论文提出了一种多模态深度学习模型，通过早期融合策略整合视觉、音频和文本特征，以提升话语级情感识别性能。通过利用LSTM对视觉特征进行时序建模，并将其与音频和文本表征相结合，该模型在OMG-Emotion数据集上实现了0.400（唤醒度）和0.353（效价）的组内相关系数（CCC），优于所有单模态基线模型。

ABSTRACT

The integration of information across multiple modalities and across time is a promising way to enhance the emotion recognition performance of affective systems. Much previous work has focused on instantaneous emotion recognition. The 2018 One-Minute Gradual-Emotion Recognition (OMG-Emotion) challenge, which was held in conjunction with the IEEE World Congress on Computational Intelligence, encouraged participants to address long-term emotion recognition by integrating cues from multiple modalities, including facial expression, audio and language. Intuitively, a multi-modal inference network should be able to leverage information from each modality and their correlations to improve recognition over that achievable by a single modality network. We describe here a multi-modal neural architecture that integrates visual information over time using an LSTM, and combines it with utterance level audio and text cues to recognize human sentiment from multimodal clips. Our model outperforms the unimodal baseline, achieving the concordance correlation coefficients (CCC) of 0.400 on the arousal task, and 0.353 on the valence task.

研究动机与目标

通过整合视觉、音频和文本模态，提升长期话语级情感识别性能。
探究在多模态情感分析中，早期融合与晚期融合策略的有效性。
评估通过LSTM对视觉和音频特征进行时序建模在连续情感回归中的影响。
将单模态性能与多模态融合结果进行比较，评估情感预测准确率的提升。
分析在存在ASR错误的情况下，基于词典的文本特征与基于序列的NLP模型相比的鲁棒性。

提出的方法

使用VGG-Face和OpenFace提取视觉特征，其拼接形成融合的视觉表征。
使用openSMILE对0.5秒帧提取音频特征，并通过64个单元的LSTM层建模时序动态。
文本特征源自情感词典，由于数据集中存在转录错误，避免依赖词嵌入或RNN模型。
通过在三个单模态表征拼接后输入两层全连接网络进行回归，实现早期融合。
采用基于CCC的损失函数进行训练，以优化组内相关系数，同时使用早停法和dropout（0.5）进行正则化。
通过$1 - \rho_c$损失函数进行微调，以进一步提升验证集上的性能。

实验结果

研究问题

RQ1与晚期融合相比，视觉、音频和文本特征的早期融合是否能在话语级情感识别中带来更好的性能？
RQ2基于LSTM的时序建模在捕捉渐进情感变化方面，对视觉和音频特征的有效性如何？
RQ3为何简单的基于情感词典的特征在文本模态中优于更复杂的NLP模型（如GloVe和LSTM）？
RQ4在OMG-Emotion数据集上，多模态融合能否显著提升情感识别性能，超越单模态基线？
RQ5在连续情感回归中，损失函数选择（如CCC与MSE）对模型性能有何影响？

主要发现

所提出的多模态模型在唤醒度任务上实现了0.400的组内相关系数（CCC），在效价任务上实现了0.353，优于所有单模态基线模型。
与晚期融合相比，多模态特征的早期融合性能更优，唤醒度CCC为0.386，效价CCC为0.305，而晚期融合分别为0.311和0.280。
通过$1 - \rho_c$损失函数进行微调后，性能进一步提升，唤醒度CCC从0.386提高到0.400，效价CCC从0.305提高到0.353。
使用OpenFace特征的单模态模型在唤醒度上CCC为0.046，效价上为0.080，显著低于融合视觉特征的0.175和0.261。
未使用LSTM的音频模型优于基于LSTM的版本，唤醒度CCC为0.273，效价CCC为0.266，表明在此设置下LSTM未对音频建模带来益处。
在文本模态中，情感词典方法表现最佳，唤醒度CCC为0.137，效价CCC为0.259，优于词嵌入和LSTM模型，可能归因于对ASR错误的更强鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。