Skip to main content
QUICK REVIEW

[论文解读] Human Vocal Sentiment Analysis

Andrew Huang, Puwei Bao|arXiv (Cornell University)|May 19, 2019
Music and Audio Processing参考文献 16被引用 29
一句话总结

该论文提出了一种混合方法,结合传统语音特征提取(MFCC、STFT)、机器学习模型(SVM、HMM)以及深度学习架构(CNN、LSTM、ResNet)进行人类语音情感分析。在愤怒情绪上达到86.8%的准确率,在厌恶情绪上达到78%,表明结合上下文感知特征的深度学习显著提升了情感分类性能,优于传统方法,同时通过轻量化模型评估了实时可行性。

ABSTRACT

In this paper, we use several techniques with conventional vocal feature extraction (MFCC, STFT), along with deep-learning approaches such as CNN, and also context-level analysis, by providing the textual data, and combining different approaches for improved emotion-level classification. We explore models that have not been tested to gauge the difference in performance and accuracy. We apply hyperparameter sweeps and data augmentation to improve performance. Finally, we see if a real-time approach is feasible, and can be readily integrated into existing systems.

研究动机与目标

  • 提升人类语音情感分析的准确率与实时可行性,超越传统基于特征的方法。
  • 评估深度学习模型(CNN、LSTM、ResNet)在结合音频与文本上下文的语音情感分类中的性能。
  • 基准比较并整合多种方法——语音特征提取、分段级特征与深度神经网络——以提升分类效果。
  • 评估数据增强、超参数调优与模型架构对性能与泛化能力的影响。
  • 确定是否可通过优化的深度学习模型实现实时推理,以部署于个人助手与基于语音的系统中。

提出的方法

  • 从原始音频信号中提取语音特征,包括MFCC、STFT、基频、能量、共振峰及其导数(速度/加速度)。
  • 在手工设计的特征上应用传统分类器(如SVM和HMM)进行2类、4类与5类情感分类。
  • 将分段级音频特征与处理后的特征(MFCC、STFT)作为输入,用于SVM和ELM等机器学习模型,以提升表征能力。
  • 使用残差连接和DropConnect训练深度神经网络(CNN、LSTM、ResNet),以改善梯度流动与泛化能力。
  • 将文本数据与音频特征结合,进行上下文级分析,以提升情感分类性能。
  • 执行超参数搜索,并应用数据增强技术,以增强模型鲁棒性及对长度变化的不变性。

实验结果

研究问题

  • RQ1具有上下文感知特征的深度学习模型是否能在语音情感分类中超越传统机器学习模型?
  • RQ2在RAVDESS和TESS数据集上,不同架构(CNN、LSTM、ResNet)在情感识别中的性能表现如何比较?
  • RQ3数据增强在多大程度上提升了模型的泛化能力,特别是对代表性不足的情感类别?
  • RQ4是否可通过优化的深度学习模型实现实时推理流水线,以部署于语音助手中?
  • RQ5残差连接与注意力机制在低样本情感分类任务中的表现如何?

主要发现

  • 基于CNN的模型表现最佳,愤怒情绪准确率达86.8%,厌恶情绪达78%,平静情绪达72%,表明其在明显情感波形上具有强大性能。
  • 中性与平静类别准确率最低(分别为64%与55%),表明在单调、低变化的情感状态间区分存在困难。
  • 在5类情感分类中性能显著下降,凸显当前特征集在区分细微情感差异方面的挑战。
  • 超参数调优与数据增强提升了模型鲁棒性,但因音频信号非空间特性,数据增强效果有限。
  • 残差连接在此任务中未显著提升性能,可能由于类别数量有限且过拟合风险较高。
  • 平均化后的CNN模型表现出稳定训练与验证曲线,表明在RAVDESS+TESS数据集上收敛良好且过拟合减少。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。