QUICK REVIEW

[论文解读] Learning to Speak Fluently in a Foreign Language: Multilingual Speech Synthesis and Cross-Language Voice Cloning

Yu Zhang, Ron J. Weiss|arXiv (Cornell University)|Jul 9, 2019

Speech Recognition and Synthesis参考文献 28被引用 26

一句话总结

本文提出了一种基于Tacotron 2的多语言文本到语音模型，可在无需双语数据的情况下，实现跨语言语音克隆——即将说话人的声音从一种语言转移到另一种语言——并实现高质量、流畅的多语言语音合成。通过使用音素输入表示和说话人对抗损失，该模型将说话人身份与语言解耦，即使在英语和中文等关系较远的语言之间，也能实现接近母语的自然度和高语音相似度。

ABSTRACT

We present a multispeaker, multilingual text-to-speech (TTS) synthesis model based on Tacotron that is able to produce high quality speech in multiple languages. Moreover, the model is able to transfer voices across languages, e.g. synthesize fluent Spanish speech using an English speaker's voice, without training on any bilingual or parallel examples. Such transfer works across distantly related languages, e.g. English and Mandarin. Critical to achieving this result are: 1. using a phonemic input representation to encourage sharing of model capacity across languages, and 2. incorporating an adversarial loss term to encourage the model to disentangle its representation of speaker identity (which is perfectly correlated with language in the training data) from the speech content. Further scaling up the model by training on multiple speakers of each language, and incorporating an autoencoding input to help stabilize attention during training, results in a model which can be used to consistently synthesize intelligible speech for training speakers in all languages seen during training, and in native or foreign accents.

研究动机与目标

仅使用单语训练数据，实现高质量的多语言文本到语音合成，无需双语说话人或平行语料。
在训练数据中说话人身份与语言存在完美相关性的情况下，实现跨语言语音克隆——即将说话人的声音迁移到外语中。
在端到端TTS中解耦说话人身份与语言表征，实现对口音和声音身份的独立控制。
通过变分自编码器残差编码器，提升多语言设置下的模型稳定性和注意力对齐。
评估不同输入表示（字符、字节、音素）对多语言TTS性能和语音克隆质量的影响。

提出的方法

采用音素输入表示，以促进跨语言发音知识的共享，并提升模型在不同语言间的泛化能力。
引入说话人对抗损失，以实现说话人身份与语言的解耦，强制模型学习说话人不变的表征。
在合成过程中显式地对语言和说话人嵌入进行条件控制，实现对口音和声音身份的独立控制。
采用类似变分自编码器的残差编码器，在训练期间通过从目标频谱图中提取的潜在表示来条件化解码器，以稳定注意力机制。
模型采用单阶段训练，无语言特定组件，所有语言使用统一架构。
单独训练WaveRNN声码器，以从预测的频谱图生成高保真波形。

实验结果

研究问题

RQ1多语言TTS模型是否能在无任何双语训练数据的情况下，将说话人的声音成功迁移到外语中？
RQ2输入表示的选择（字符、字节、音素）如何影响跨语言语音克隆和语音自然度？
RQ3对抗训练是否能有效实现仅使用单语说话人的多语言TTS模型中说话人身份与语言的解耦？
RQ4语言嵌入在多大程度上能实现受控的口音迁移，而不会降低语音相似度？
RQ5引入残差编码器是否能提升多语言TTS中的注意力稳定性与语音质量？

主要发现

基于音素的输入表示在自然度方面表现最佳，且口音不匹配最低，评分者评论指出外语中发音流畅且接近母语。
说话人对抗损失成功实现了跨语言语音克隆，在英语到西班牙语和英语到中文的迁移中，语音相似度MOS均超过4.0，即使在关系较远的语言之间也表现良好。
在使用完整模型（含说话人和语言嵌入）时，所有语言对的跨语言克隆自然度MOS均保持在3.85以上，表明模型具有强大的泛化能力。
在英语到英语合成中，自然度MOS超过4.3；在英语到西班牙语中，相似度MOS超过4.2，接近真实语音性能。
移除变分残差编码器后，英语到中文克隆的自然度下降0.4 MOS点，表明其在稳定注意力和防止词省略或不自然停顿方面起着关键作用。
说话人嵌入的可视化结果表明，当语言和说话人身份匹配时，聚类紧密；而语言不匹配时则出现口音偏移，验证了表征的解耦效果。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。