Skip to main content
QUICK REVIEW

[论文解读] A breakthrough in Speech emotion recognition using Deep Retinal Convolution Neural Networks

Yafeng Niu, Dongsheng Zou|arXiv (Cornell University)|Jul 12, 2017
Emotion and Mood Recognition参考文献 4被引用 37
一句话总结

本文提出了一种基于新型数据增强技术的深度视网膜卷积神经网络(DRCNNs),该技术受视网膜和凸透镜成像原理启发,可生成不同尺寸的语谱图,显著提升了训练数据的多样性。该方法在语音情感识别(SER)任务中实现了超过99%的平均识别准确率,优于以往方法在准确率和可识别情感类别数量方面的表现。

ABSTRACT

Speech emotion recognition (SER) is to study the formation and change of speaker's emotional state from the speech signal perspective, so as to make the interaction between human and computer more intelligent. SER is a challenging task that has encountered the problem of less training data and low prediction accuracy. Here we propose a data augmentation algorithm based on the imaging principle of the retina and convex lens, to acquire the different sizes of spectrogram and increase the amount of training data by changing the distance between the spectrogram and the convex lens. Meanwhile, with the help of deep learning to get the high-level features, we propose the Deep Retinal Convolution Neural Networks (DRCNNs) for SER and achieve the average accuracy over 99%. The experimental results indicate that DRCNNs outperforms the previous studies in terms of both the number of emotions and the accuracy of recognition. Predictably, our results will dramatically improve human-computer interaction.

研究动机与目标

  • 通过开发一种新颖的数据增强策略,解决语音情感识别(SER)中训练数据有限的挑战。
  • 通过设计一种受视网膜成像启发的新型神经网络架构,利用深度学习提升SER的准确率。
  • 实现在语音信号中对多种情感状态的高精度识别。
  • 通过基于光学原理的合成数据生成,增强SER模型的鲁棒性和泛化能力。

提出的方法

  • 基于视网膜和凸透镜的成像原理,开发了一种数据增强算法,通过模拟语谱图与虚拟凸透镜之间的距离变化,生成多种缩放后的语谱图表示。
  • 通过在模拟光学系统中改变焦距和物距,生成不同尺寸的语谱图,有效提升了训练数据的变异性。
  • 提出一种新型深度神经网络架构——深度视网膜卷积神经网络(DRCNNs),用于从增强的语谱图中提取高层特征。
  • DRCNNs采用多层卷积网络,通过分层特征学习捕捉语音信号中复杂的情感模式。
  • 在增强的语谱图数据上端到端训练模型,以优化情感分类性能。
  • 网络架构设计模仿视网膜结构的空间处理机制,提升特征提取效率。

实验结果

研究问题

  • RQ1基于视网膜成像原理的生物启发式数据增强技术是否能提升语音情感识别中的数据多样性与模型泛化能力?
  • RQ2受视网膜结构启发的新型深度神经网络架构是否能在SER中实现高于现有模型的准确率?
  • RQ3在真实训练数据有限的情况下,所提出的方法是否能在多个情感类别中保持高性能?
  • RQ4基于光学模拟的数据增强在多大程度上提升了模型的鲁棒性和识别准确率?

主要发现

  • 所提出的DRCNN模型在语音情感识别任务中实现了超过99%的平均识别准确率。
  • 基于视网膜成像原理的数据增强技术成功通过生成多样化的语谱图尺度,显著增加了训练数据集的有效规模。
  • DRCNN模型在识别准确率和可检测情感类别数量方面均优于以往的最先进方法。
  • 将视网膜启发的光学模拟整合到数据增强中,显著提升了模型的泛化能力和鲁棒性。
  • 该方法在真实世界训练数据有限的情况下仍表现出色,凸显其在低数据场景下的有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。