[论文解读] The Emotional Voices Database: Towards Controlling the Emotion Dimension in Voice Generation Systems
本论文/本研究介绍一个开源的多说话人、双语情感语音数据库(英语与法语),旨在实现语音合成与变换中的可控情感生成;通过一个简单的情感到中性转换的神经网络和 CMOS 感知测试来验证数据集。
In this paper, we present a database of emotional speech intended to be open-sourced and used for synthesis and generation purpose. It contains data for male and female actors in English and a male actor in French. The database covers 5 emotion classes so it could be suitable to build synthesis and voice transformation systems with the potential to control the emotional dimension in a continuous way. We show the data's efficiency by building a simple MLP system converting neutral to angry speech style and evaluate it via a CMOS perception test. Even though the system is a very simple one, the test show the efficiency of the data which is promising for future work.
研究动机与目标
- 提供一个开源的情感语音数据集,适用于基于深度学习的合成与语音转换。
- 覆盖多位说话者(包括两性)与语言(英语和法语),以支持跨语言的情感建模。
- 通过将数据置于维度式(Russell 环形图)或基本情感框架中,支持连续情感控制。
- 通过基线语音变换实验和感知评估来验证数据集的实用性。
提出的方法
- 通过重复使用 CMU Arctic(英语)和 SIWIS(法语)中的音素平衡句子,组装一个多语言、 多说话人情感语音数据库。
- 以 44.1 kHz 采样,降采样至 16 kHz,16-bit PCM,在消声室中录制;包含五种情感(amused, anger, sleepiness, disgust, neutral)。
- 使用手动分段与标注;提供转录文本和音素级标注(尚未对齐时间)。
- 在 Merlin 工具包内构建一个简单的前馈神经网络(6 层隐藏层,1024 个 tanh 单元),用于对目标情感(anger)执行中性到情感的语音转换。
- 使用 WORLD 音频编码特征和 DTW 对齐,逐说话人、逐情感训练语音转换模型。
- 使用 Comparative Mean Opinion Score (CMOS) 测试和情感分类判断进行评估,以评估感知真实感和情感可辨识性。
实验结果
研究问题
- RQ1开源的多说话人情感语音数据库是否能够支持用于情感控制的语音生成的神经模型训练?
- RQ2在基线系统中将中性语音转换为愤怒情感时,该情感的可识别性和可控性有多高?
- RQ3在受限情感集(包括中性)中进行对齐和转换,是否能产生感知有效的情感语音?
- RQ4数据集在多大程度上可与现有开源资源整合,以实现跨语言、跨说话人情感建模?
主要发现
- 数据库为英语(两位女性、两位男性)和法语(1位男性)提供了五种情感数据,适用于基于深度学习的合成与语音转换。
- 一个简单的基于 DNN 的逐说话人语音变换实现了有效的中性到愤怒转换,在感知测试中情感识别率较高。
- CMOS 结果显示,愤怒语音通常被正确识别为比中性更情绪化,且在不同说话人之间存在不同的准确性。
- 感知测试表明,大多数误分类涉及将中性语音误判为睡意或娱乐性,而非愤怒。
- 数据和方法表明未来更复杂的合成系统(如基于注意力的或类 WaveNet 的架构)具有良好潜力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。