[论文解读] Modeling Multi-speaker Latent Space to Improve Neural TTS: Quick Enrolling New Speaker and Enhancing Premium Voice
本文提出一种多说话人神经TTS模型,通过共享说话人潜在空间实现仅需5分钟以内数据的快速、高质量语音克隆,并通过跨说话人数据泛化提升优质语音质量。通过联合建模说话人嵌入与谱特征,该系统在新说话人上实现自然度MOS得分为4.16,说话人相似度MOS得分为4.64,且在域外文本合成中达到4.5分,接近真人录音质量(4.58分)。
Neural TTS has shown it can generate high quality synthesized speech. In this paper, we investigate the multi-speaker latent space to improve neural TTS for adapting the system to new speakers with only several minutes of speech or enhancing a premium voice by utilizing the data from other speakers for richer contextual coverage and better generalization. A multi-speaker neural TTS model is built with the embedded speaker information in both spectral and speaker latent space. The experimental results show that, with less than 5 minutes of training data from a new speaker, the new model can achieve an MOS score of 4.16 in naturalness and 4.64 in speaker similarity close to human recordings (4.74). For a well-trained premium voice, we can achieve an MOS score of 4.5 for out-of-domain texts, which is comparable to an MOS of 4.58 for professional recordings, and significantly outperforms single speaker result of 4.28.
研究动机与目标
- 通过仅几分钟的语音数据,实现对新说话人的快速、高保真语音克隆。
- 通过跨说话人数据泛化,提升优质语音在域外及复杂语境下的泛化能力。
- 探索多说话人建模在提升零样本迁移适应能力与域内性能方面的优势。
- 研究共享潜在空间表征如何提升神经TTS中说话人相似度与自然度。
- 证明多说话人预训练可显著降低数据依赖性,同时保持或提升合成质量。
提出的方法
- 将说话人嵌入集成到端到端神经TTS模型的谱特征预测与声码器组件中。
- 使用说话人编码器或固定查找表,从语音数据中提取说话人特异性潜在表征。
- 在多说话人语料上端到端训练模型,实现说话人身份与声学特征的联合优化。
- 通过仅对每位新说话人微调50段注册语音,实现少样本说话人适应。
- 在预训练阶段利用其他说话人的数据增强优质语音,提升其对域外输入的鲁棒性。
- 通过t-SNE可视化说话人嵌入,确认有效聚类并接近真实说话人录音。
实验结果
研究问题
- RQ1多说话人神经TTS模型是否能在新说话人仅使用5分钟以下数据时,实现高说话人相似度与自然度?
- RQ2与单说话人模型相比,多说话人预训练在域外及复杂语境句子上的泛化能力如何提升?
- RQ3共享说话人潜在空间表征在多大程度上可提升语音克隆质量并减少数据需求?
- RQ4引入跨说话人数据是否能提升已充分训练的优质语音的鲁棒性与自然度?
- RQ5说话人嵌入在说话人潜在空间中如何促进更好的解耦与聚类?
主要发现
- 仅使用50段注册语音(少于5分钟),模型在自然度上达到MOS 4.16分,说话人相似度达4.64分,非常接近真人录音(4.74分)。
- 多说话人模型显著提升域外泛化能力,在复杂句子上的MOS达4.5分,优于单说话人基线模型的4.28分(p < 0.01)。
- 多说话人模型在域外测试集上的MOS(4.5分)几乎与专业录音(4.58分)无异,表明其具备极强的泛化能力。
- 即使仅使用0.5小时数据,模型MOS已达4.07分,增至15小时数据时提升至4.57分,接近人类水平质量。
- t-SNE可视化显示,合成说话人嵌入与真实说话人嵌入聚类紧密,表明说话人表征学习有效。
- 无论在域内还是域外设置下,该模型均显著优于单说话人基线模型,尤其在长句与复杂句上表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。