Skip to main content
QUICK REVIEW

[论文解读] Improving Automatic Emotion Recognition from speech using Rhythm and Temporal feature

Mayank Bhargava, Tim Polzehl|arXiv (Cornell University)|Mar 7, 2013
Emotion and Mood Recognition参考文献 18被引用 30
一句话总结

该论文通过整合基于声学分析提取的节奏和时间特征,结合传统的MFCC、音高和能量等特征,提升了基于语音的自动情绪识别性能。通过分割技术分离出有声、无声和静音段落,并应用IGR过滤器进行特征选择,该方法在柏林情绪数据库的说话人相关设置下实现了80.60%的准确率,证明了节奏和时间线索在情绪识别系统中的价值。

ABSTRACT

This paper is devoted to improve automatic emotion recognition from speech by incorporating rhythm and temporal features. Research on automatic emotion recognition so far has mostly been based on applying features like MFCCs, pitch and energy or intensity. The idea focuses on borrowing rhythm features from linguistic and phonetic analysis and applying them to the speech signal on the basis of acoustic knowledge only. In addition to this we exploit a set of temporal and loudness features. A segmentation unit is employed in starting to separate the voiced/unvoiced and silence parts and features are explored on different segments. Thereafter different classifiers are used for classification. After selecting the top features using an IGR filter we are able to achieve a recognition rate of 80.60 % on the Berlin Emotion Database for the speaker dependent framework.

研究动机与目标

  • 通过引入超越传统声学特征的节奏和时间特征,提升基于语音的自动情绪识别性能。
  • 探索仅基于声学知识的语音学和语言学节奏特征在语音信号中的适用性。
  • 将语音分割为有声、无声和静音区域,以提取上下文相关的特征,提升分类性能。
  • 在使用信息增益比(IGR)过滤器进行特征选择后,评估多种分类器的性能。
  • 在混合特征集的基础上,实现说话人相关情绪识别框架中的更高识别准确率。

提出的方法

  • 该方法首先通过有声/无声活动检测机制,将语音信号分割为有声、无声和静音段落。
  • 基于语言学和语音学原理提取节奏特征,适应声学信号,无需语言转录。
  • 在分割后的区域上计算时间特征和响度特征,以捕捉语音中的动态变化。
  • 应用信息增益比(IGR)过滤器进行特征选择,以识别最具判别力的特征。
  • 在选定的特征集上训练并评估多种分类器,以确定最优性能。
  • 最终在说话人相关的评估协议下,于柏林情绪数据库上测量识别准确率。

实验结果

研究问题

  • RQ1能否仅从声学信号中提取的节奏和时间特征提升情绪识别性能?
  • RQ2在无转录文本的情况下,将语言学分析中的节奏特征应用于原始语音信号时表现如何?
  • RQ3将语音分割为有声、无声和静音区域对特征表示和分类准确率有何影响?
  • RQ4当与传统特征结合时,时间特征和响度特征在情绪识别中的贡献程度如何?
  • RQ5在说话人相关设置下,哪种特征与分类器的组合能实现最高的识别准确率?

主要发现

  • 节奏和时间特征的整合显著提升了情绪识别性能,超越了MFCC和音高等标准特征。
  • 通过将语音分割为有声、无声和静音区域,实现了更具上下文感知的特征提取,提升了模型的判别能力。
  • 信息增益比(IGR)过滤器成功识别出最相关的特征,从而形成了精简而高效的特征集。
  • 所提出的方法在说话人相关的框架下,于柏林情绪数据库上实现了80.60%的识别准确率,优于基线方法。
  • 时间特征和响度特征在最终分类中起到了显著作用,尤其在与节奏线索结合时。
  • 结果表明,仅从声学信号中提取的基于节奏的特征,可在情绪识别系统中发挥有效作用。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。