[论文解读] ASR for Affective Speech: Investigating Impact of Emotion and Speech Generative Strategy
该论文分析合成情感语音如何影响ASR,确定替换错误为主要问题,并显示两种基于策略的数据选择方法(转录正确性和情感显著性)在不损害中性语音的前提下提升真实情感数据上的ASR性能,最佳提升来自结合的TTS-EMO-G方法。
This work investigates how emotional speech and generative strategies affect ASR performance. We analyze speech synthesized from three emotional TTS models and find that substitution errors dominate, with emotional expressiveness varying across models. Based on these insights, we introduce two generative strategies: one using transcription correctness and another using emotional salience, to construct fine-tuning subsets. Results show consistent WER improvements on real emotional datasets without noticeable degradation on clean LibriSpeech utterances. The combined strategy achieves the strongest gains, particularly for expressive speech. These findings highlight the importance of targeted augmentation for building emotion-aware ASR systems.
研究动机与目标
- 在真实世界互动中提升ASR对情感变量的鲁棒性。
- 描述合成语音中的情感如何影响ASR错误模式并识别主导错误类型。
- 开发并评估数据生成策略,以选择在情感表达上但在语言学上仍可靠的样本用于ASR训练。
- 展示从合成数据到真实情感语音数据集的策略泛化。
提出的方法
- 从三个TTS模型(CosyVoice2、EmoVoice、MaskGCT)合成带情感的语音,使用LibriSpeech文字记录覆盖五种情感(愤怒、快乐、中性、悲伤、惊讶)。
- 分析ASR错误模式(替换、插入、删除)并通过一个维度情感回归(Act、Val、Dom)评估情感显著性,以表征合成数据质量。
- 定义两种生成策略:TTS-G(选择出现替换更多且不再出现删除/插入的 utterances)与EMO-G(选择情感分数偏离均值一个标准差以上的 utterances)。
- 创建一个组合的TTS-EMO-G 子集,并在每个合成子集上微调一个预训练的Qwen2-audio-7B ASR模型(AudioEnc 仅最后0.1%参数解冻)。
- 通过对合成测试集和真实情感数据集(MSP Podcast Test1/2、IEMOCAP)进行WER评估,以测试泛化能力。
- 与Vanilla(无筛选)进行对比,并报告是否对AudioEnc微调的影响。
实验结果
研究问题
- RQ1合成语音的情感表达性如何影响ASR的错误类型与整体识别准确性?
- RQ2是否基于转录正确性和情感显著性的定向数据选择策略能提升ASR对情感语音的鲁棒性?
- RQ3从合成、情感感知增强到真实情感语音数据集的改进是否具有可迁移性?
主要发现
- 合成情感语音相比于中性 LibriSpeech 数据,会增加替换错误。
- 情感显著且转录正确的样本对ASR训练更有效。
- 经过筛选的合成数据在真实情感语音上的识别性能提升,同时对中性(LibriSpeech)性能无负面影响。
- 综合的TTS-EMO-G策略在最具表达力的语音中取得最强提升,且在合成和真实数据集上均有显著收益。
- 在三种TTS模型中,MaskGCT在其设置下提供最佳整体性能,情感分布的平衡有助于鲁棒性。
- 在真实情感基准上,TTS-EMO-G始终优于其他策略,表明对真实情感语音具有良好泛化能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。