Skip to main content
QUICK REVIEW

[论文解读] Multi-Modal Emotion recognition on IEMOCAP Dataset using Deep Learning

Samarth Tripathi, Tripathi, Sarthak|arXiv (Cornell University)|Apr 16, 2018
Emotion and Mood Recognition参考文献 20被引用 69
一句话总结

本文提出一个用于 IEMOCAP 的模组化多模态情感识别系统,使用语音、文本和运动捕捉数据,在最终层将模态特异模型融合,并使用 OpenOPT 工具对超参数进行调优。

ABSTRACT

Emotion recognition has become an important field of research in Human Computer Interactions as we improve upon the techniques for modelling the various aspects of behaviour. With the advancement of technology our understanding of emotions are advancing, there is a growing need for automatic emotion recognition systems. One of the directions the research is heading is the use of Neural Networks which are adept at estimating complex functions that depend on a large number and diverse source of input data. In this paper we attempt to exploit this effectiveness of Neural networks to enable us to perform multimodal Emotion recognition on IEMOCAP dataset using data from Speech, Text, and Motion capture data from face expressions, rotation and hand movements. Prior research has concentrated on Emotion detection from Speech on the IEMOCAP dataset, but our approach is the first that uses the multiple modes of data offered by IEMOCAP for a more robust and accurate emotion detection.

研究动机与目标

  • 推动人机交互的自动情感识别。
  • 利用多模态信息(语音、文本、MoCap)来提升鲁棒性和准确性。
  • 在后期融合前识别每种模态的最佳架构。
  • 实现模块化,确保缺失模态时不需要重新训练所有组件。

提出的方法

  • 评估语音、文本和 MoCap 的模态特异架构以识别表现最好的模型。
  • 在最终层对每模态最佳模型进行特征融合,使用一个具有 256 个神经元的全连接层与 softmax 进行分类。
  • 在最终的多模态网络上采用超参数优化(Auptimizer)。
  • 使用说话人无关划分,在 77.7% 的数据上训练,在 22.2% 上测试。
  • 对 MoCap 数据使用二维卷积,以避免三维卷积网络并实现更快的训练。

实验结果

研究问题

  • RQ1各模态的深度学习模型是否能在 IEMOCAP 上实现较强的情感识别?
  • RQ2对各模态最佳模型进行的晚期融合是否能获得具有竞争力的多模态性能?
  • RQ3使用运动捕捉数据(相对于视频)对多模态情感识别有何影响?
  • RQ4提出的模块化融合与 IEMOCAP 上的最先进多模态架构相比如何?

主要发现

模型准确率
文本 + 语音 + Mocap 综合71.04%
Poria [11]71.59%
  • 最终的多模态模型(Text_Model2 + Speech_Model4 + Mocap_Model1)达到 71.04% 的准确率。
  • Poria 等人在同一任务上达到 71.59%,显示具备竞争力的性能。
  • Speech_Model4(基于注意力的双向 LSTM)在作为单一模态评估时达到 55.65%。
  • Text_Model2(堆叠的 LSTM,使用 Glove 嵌入)达到 64.68% 的准确率。
  • 使用 CNN+LSTM 的 MoCap 面部数据(Face_Model2)在 MoCap 单模态变体中获得最佳性能(头部/手部/面部的 48.58%–48.99%)。
  • 模块化的晚期融合设计允许在不重新训练其他模型的情况下更换任何单模态模型。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。