Skip to main content
QUICK REVIEW

[论文解读] Cross Corpus Speech Emotion Classification- An Effective Transfer Learning Technique.

Siddique Latif, Rajib Rana|arXiv (Cornell University)|Jan 19, 2018
Speech Recognition and Synthesis被引用 28
一句话总结

本文研究了使用深度置信网络(DBNs)进行跨语料库和跨语言的语音情感识别,表明在多样化语料库之间进行迁移学习——尤其是使用多语言数据和有限目标语料库训练——可显著提高准确率,优于传统方法如稀疏自编码器和SVM。DBNs在判别模型中表现更优,凸显其在低资源情感识别场景下的泛化能力。

ABSTRACT

Cross-corpus speech emotion recognition can be a useful transfer learning technique to build a robust speech emotion recognition system by leveraging information from various speech datasets - cross-language and cross-corpus. However, more research needs to be carried out to understand the effective operating scenarios of cross-corpus speech emotion recognition, especially with the utilization of the powerful deep learning techniques. In this paper, we use five different corpora of three different languages to investigate the cross-corpus and cross-language emotion recognition using Deep Belief Networks (DBNs). Experimental results demonstrate that DBNs with generalization power offers better accuracy than a discriminative method based on Sparse Auto Encoder and SVM. Results also suggest that using a large number of languages for training and using a small fraction of target data in training can significantly boost accuracy compared to using the same language for training and testing.

研究动机与目标

  • 评估在跨语料库和跨语言语音情感识别中,使用深度生成模型进行迁移学习的有效性。
  • 比较深度置信网络(DBNs)与稀疏自编码器和SVM等判别模型在情感分类中的性能表现。
  • 识别最优训练配置,如使用多语言数据和小部分目标语料库数据,以最大化识别准确率。

提出的方法

  • 本研究采用深度置信网络(DBNs)作为主要模型,从多个语料库的语音特征中学习分层表征。
  • 使用来自三种不同语言的五个语料库的语音数据,对DBN-based系统进行训练和评估。
  • 通过在源语料库上预训练DBN,并在目标语料库上使用少量数据进行微调,应用迁移学习。
  • 模型采用贪心逐层预训练,随后进行判别性微调,以优化情感分类性能。
  • 使用标准指标评估情感识别性能,并在相同数据划分上将DBNs与稀疏自编码器和SVM进行比较。
  • 实验设置包括跨语料库和跨语言评估,以检验在多样化数据集上的泛化能力。

实验结果

研究问题

  • RQ1在跨语料库语音情感识别中,基于DBN的迁移学习与稀疏自编码器和SVM等判别模型相比表现如何?
  • RQ2在训练中使用多种语言对低资源目标场景下的识别准确率有何影响?
  • RQ3在结合多语言预训练的前提下,使用少量目标语言数据是否能显著提升性能?
  • RQ4在何种配置下,跨语料库迁移学习能在情感分类中实现最高准确率?

主要发现

  • DBNs在跨语料库语音情感识别中准确率高于稀疏自编码器和SVM,展现出更优的泛化能力。
  • 在预训练阶段使用大量语言显著提升了在目标语料库上的性能,即使目标数据有限。
  • 在利用多语言源数据的同时,仅使用少量目标语料库数据进行训练,其准确率高于同语言训练与测试。
  • 结果证实,跨多样化语料库和语言的迁移学习是构建稳健语音情感识别系统的一种有效策略。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。