[论文解读] EmoTech: A Multi-modal Speech Emotion Recognition Using Multi-source Low-level Information with Hybrid Recurrent Network
EmoTech 提出一种将音频(基于 MFCC 的 BiLSTM 和 Conv2D)与文本(带有 BiLSTM 的嵌入和 Conv1D)的多模态情绪识别系统,在 IEMOCAP 数据集上对五种情绪的准确率约为 84%。
Emotion recognition is a critical task in human-computer interaction, enabling more intuitive and responsive systems. This study presents a multimodal emotion recognition system that combines low-level information from audio and text, leveraging both Convolutional Neural Networks (CNNs) and Bidirectional Long Short-Term Memory Networks (BiLSTMs). The proposed system consists of two parallel networks: an Audio Block and a Text Block. Mel Frequency Cepstral Coefficients (MFCCs) are extracted and processed by a BiLSTM network and a 2D convolutional network to capture low-level intrinsic and extrinsic features from speech. Simultaneously, a combined BiLSTM-CNN network extracts the low-level sequential nature of text from word embeddings corresponding to the available audio. This low-level information from speech and text is then concatenated and processed by several fully connected layers to classify the speech emotion. Experimental results demonstrate that the proposed EmoTech accurately recognizes emotions from combined audio and text inputs, achieving an overall accuracy of 84%. This solution outperforms previously proposed approaches for the same dataset and modalities.
研究动机与目标
- 通过利用互补的音频和文本模态来推动 SER 的改进。
- 提出一个两分支架构(Audio Block 和 Text Block)以提取低层次特征。
- 将音频和文本特征融合并使用一个密集分类器进行情感分类。
- 在 IEMOCAP 上进行数据增强以解决类别不平衡的问题。
- 证明多模态整合优于单模态方法。
提出的方法
- 在 Audio Block 中将语音的 MFCC 作为输入给 BiLSTM 和二维卷积神经网络。
- 在 Text Block 中通过嵌入处理文本转录,输入给 BiLSTM 和带全局最大池化的 Conv1D。
- 将音频和文本 Block 的输出在一个共享分类器中连接,包含三层密集层和 softmax 输出。
- 使用 5 折交叉验证,在 5,633 个增强样本上训练,优化器为 Adam,损失函数为分类交叉熵。
- 应用数据增强以平衡类别并提高性能。
- 总模型参数量:7,295,821。
实验结果
研究问题
- RQ1一个将低层次音频和文本特征相结合的多模态架构是否能在 IEMOCAP 上提升 SER 的准确率?
- RQ2数据增强对少数类别和总体准确率的影响是什么?
- RQ3在相同数据集上,EmoTech 相对于现有的单模态和多模态 SER 方法有何比较?
主要发现
| 模型 | 特征 | 准确率(%) |
|---|---|---|
| Yoon 等人(2018) | Speech+Text | 71.80 |
| Yenigalla 等人(2018) | Speech+Phoneme | 73.90 |
| Atmaja 等人(2019) | Speech+Text | 75.40 |
| EmoTech | Speech+Text | 83.52 |
- 联合的语音和文本特征比单一模态具有更高的准确性,数据增强进一步提升性能。
- 在经过增量训练后,EmoTech 模型对 Speech+Text 的总体准确率为 83.52%。
- 按类别指标显示,愤怒(≈0.9728)、悲伤(≈0.9695)和兴奋(≈0.9252)的精确度/召回率较高。
- 中性情绪的准确性较低(约 0.8153),挑战性更大。
- EmoTech 在同一模态组合(Speech+Text)下超越 IEMOCAP 的若干现有模型。
- 所提出的混合 BiLSTM-CNN 架构能够有效捕捉音频和文本中的时序和局部特征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。