[论文解读] Multimodal Speech Emotion Recognition and Ambiguity Resolution
本论文将轻量级的手工特征基础的 ML 模型与深度学习在多模态(音频和文本)语音情绪识别上的表现进行比较,使用 IEMOCAP,结果显示简单的 ML 集成方法可以与 DL 方法相媲美,并且增加文本信息可提升性能。
Identifying emotion from speech is a non-trivial task pertaining to the ambiguous definition of emotion itself. In this work, we adopt a feature-engineering based approach to tackle the task of speech emotion recognition. Formalizing our problem as a multi-class classification problem, we compare the performance of two categories of models. For both, we extract eight hand-crafted features from the audio signal. In the first approach, the extracted features are used to train six traditional machine learning classifiers, whereas the second approach is based on deep learning wherein a baseline feed-forward neural network and an LSTM-based classifier are trained over the same features. In order to resolve ambiguity in communication, we also include features from the text domain. We report accuracy, f-score, precision, and recall for the different experiment settings we evaluated our models in. Overall, we show that lighter machine learning based models trained over a few hand-crafted features are able to achieve performance comparable to the current deep learning based state-of-the-art method for emotion recognition.
研究动机与目标
- 在情绪定义模糊的背景下,激发情绪识别的研究兴趣。
- 将基于手工音频特征训练的传统 ML 模型与在相同特征上训练的 DL 模型进行比较。
- 研究文本模态及音频+文本融合对情绪识别准确性的影响。
- 在 IEMOCAP 上评估音频仅、文本仅和多模态设置下的模型表现。
- 提供多模态 SER 的特征重要性见解并讨论未来改进。
提出的方法
- 提取八个手工时域音频特征(pitch、harmonics、energy、pause、central moments)。
- 从文本逐字稿计算 TFIDF 特征。
- 训练传统 ML 分类器(Random Forest、Gradient Boosting、SVM、Naive Bayes、Logistic Regression)并在相同音频特征下与 DL 模型(MLP、LSTM)进行比较。
- 实现简单的集成方法,将 RF、XGBoost 和 MLP 进行组合(并扩展集成包含 MNB 和 LR)。
- 通过简单拼接将音频和文本特征融合,以实现多模态设置。
- 在三个设置下使用准确率、精确率、召回率和 F1-score 进行评估:Audio-only、Text-only、Audio+Text。
实验结果
研究问题
- RQ1手工音频特征结合传统 ML 与 DL 模型在 IEMOCAP 的六类情绪识别中表现如何?
- RQ2纳入文本数据是否提升 SER 表现,多模态融合对结果有何影响?
- RQ3哪些特征对情绪预测贡献最大,融合是否有助于解决模态特异的歧义?
- RQ4模态(音频、文本、多模态)对情感类别间混淆有何影响?
- RQ5轻量级模型是否能够达到或超过该任务的最先进 DL 方法的性能?
主要发现
- 在 IEMOCAP 上,基于八个音频特征训练的轻量级 ML 集成达到与更深层 DL 模型相当的性能。
- 音频仅的结果显示 LSTM 相对于集成 E1 在若干设置中表现不佳,尤其是在区分中性情绪和一些关系紧密的情绪时。
- 文本仅模型表现良好,TRE(文本编码器)在六种情绪类别上表现稳健。
- 音频+文本融合在指标上比单模态模型提升约 14%,表明跨模态信息耦合强。
- 文本特征有助于正确分类愤怒和高兴情绪,而音频特征则提升悲伤的检测。
- 在八个特征中,谐波(Harmonics)和暂停(pause)成为预测中最重要的音频特征。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。