QUICK REVIEW

[论文解读] Evaluating Gammatone Frequency Cepstral Coefficients with Neural Networks for Emotion Recognition from Speech

Gabrielle Kaili-May Liu|arXiv (Cornell University)|Jun 23, 2018

Speech and Audio Processing参考文献 9被引用 34

一句话总结

本文评估了梅尔频率倒谱系数（MFCCs）相比传统的梅尔频率倒谱系数（MFCCs）作为情感和强度识别的语音表征时，Gammatone频率倒谱系数（GFCCs）的优越性。在RAVDESS数据集上，使用全连接网络、LSTM和注意力机制LSTM网络进行实验，GFCCs在所有架构中均持续优于MFCCs，平均准确率提升3.6%，表明GFCCs在情感识别任务中更能有效建模人类听觉感知。

ABSTRACT

Current approaches to speech emotion recognition focus on speech features that can capture the emotional content of a speech signal. Mel Frequency Cepstral Coefficients (MFCCs) are one of the most commonly used representations for audio speech recognition and classification. This paper proposes Gammatone Frequency Cepstral Coefficients (GFCCs) as a potentially better representation of speech signals for emotion recognition. The effectiveness of MFCC and GFCC representations are compared and evaluated over emotion and intensity classification tasks with fully connected and recurrent neural network architectures. The results provide evidence that GFCCs outperform MFCCs in speech emotion recognition.

研究动机与目标

探究Gammatone频率倒谱系数（GFCCs）是否在情感识别方面提供比梅尔频率倒谱系数（MFCCs）更优的语音信号表征。
评估GFCCs与MFCCs在多种神经网络架构（包括全连接网络、LSTM和注意力机制LSTM）中的性能表现。
比较GFCCs与MFCCs在情感分类（8种类别）和强度分类（2种类别）任务中的有效性。
确定GFCCs在模拟耳蜗力学方面的生物学基础是否能转化为情感识别系统中的可测量性能提升。

提出的方法

通过标准化流程从语音信号中提取GFCC和MFCC表征：预加重、分帧、汉明窗加权、快速傅里叶变换（FFT）、滤波器组应用（Gammatone或Mel）、对数压缩以及离散余弦变换（DCT）。
通过拼接目标帧前后各9帧（共19帧）的MFCC和GFCC向量，生成上下文表征，每帧得到39维特征向量。
使用ReLU或Sigmoid激活函数、20%丢弃率和批量归一化训练全连接神经网络（FCNNs），每层隐藏层均应用批量归一化。
使用tanh激活函数、无丢弃率、并将序列填充至820帧以确保输入长度一致，训练LSTM和注意力机制LSTM模型。
采用早停策略，耐心度为15个周期，验证准确率最小提升阈值为0.0005，以防止过拟合。
将RAVDESS数据集按75%训练集和25%测试集划分，情感与强度类别在训练集中保持平衡，并对所有输入进行均值去除和单位方差缩放归一化处理。

实验结果

研究问题

RQ1GFCCs是否在多种神经网络架构中均提供比MFCCs更高的语音情感识别分类准确率？
RQ2在更细微的情感维度——强度分类任务中，GFCCs与MFCCs的性能表现如何比较？
RQ3GFCCs因其对耳蜗基底膜运动的建模而具备生物学合理性，这种特性是否能转化为情感识别中的可测量性能增益？
RQ4注意力机制是否能进一步扩大GFCCs与MFCCs在序列建模任务中的性能差距？

主要发现

在所有神经网络架构中，GFCCs在情感分类任务中均优于MFCCs，平均准确率提升3.6%。
在情感分类任务中，基于GFCC的模型在L(400)/A LSTM模型上达到最高测试准确率0.768，而对应的MFCC模型为0.749。
在强度分类任务中，GFCCs表现出一致的性能优势，最佳模型（L(100)/A）达到0.798的准确率，而MFCC对应模型为0.777。
该性能提升在所有网络类型中均被观察到——全连接网络、LSTM和注意力机制LSTM，表明GFCCs是一种稳健的特征表征。
在深层架构中，性能增益最为显著，表明GFCCs更能捕捉情感语音中的分层时间模式。
结果支持了GFCCs因更贴近人类听觉感知（通过模拟耳蜗力学）而带来情感识别任务中更优性能的假设。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。