Skip to main content
QUICK REVIEW

[论文解读] StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models

Yinghao Aaron Li, Cong Han|PubMed|Jun 13, 2023
Speech Recognition and Synthesis参考文献 61被引用 23
一句话总结

StyleTTS 2 引入风格扩散和与大型语音语言模型的对抗训练,以达到人类水平的 TTS,在 LJSpeech 上超越单一说话人真人录音,在 VCTK 上匹配多说话人真人表现,并在 LibriTTS 上展现强大的零-shot 说话人自适应。

ABSTRACT

In this paper, we present StyleTTS 2, a text-to-speech (TTS) model that leverages style diffusion and adversarial training with large speech language models (SLMs) to achieve human-level TTS synthesis. StyleTTS 2 differs from its predecessor by modeling styles as a latent random variable through diffusion models to generate the most suitable style for the text without requiring reference speech, achieving efficient latent diffusion while benefiting from the diverse speech synthesis offered by diffusion models. Furthermore, we employ large pre-trained SLMs, such as WavLM, as discriminators with our novel differentiable duration modeling for end-to-end training, resulting in improved speech naturalness. StyleTTS 2 surpasses human recordings on the single-speaker LJSpeech dataset and matches it on the multispeaker VCTK dataset as judged by native English speakers. Moreover, when trained on the LibriTTS dataset, our model outperforms previous publicly available models for zero-shot speaker adaptation. This work achieves the first human-level TTS on both single and multispeaker datasets, showcasing the potential of style diffusion and adversarial training with large SLMs. The audio demos and source code are available at https://styletts2.github.io/.

研究动机与目标

  • 通过扩散将风格建模为潜在变量来实现人类水平的 TTS,从而在生成时无需参考语音。
  • 利用大型预训练语音语言模型作为判别器,通过对抗训练提高自然度。
  • 使端到端训练成为可能,并利用可微分的时长建模来提升稳定性和合成质量。
  • 在单说话人和多说话人数据集上展示出色表现,并在 LibriTTS 上展示数据高效的零-shot 说话人自适应。

提出的方法

  • 将语音风格建模为一个潜在变量,由条件化于输入文本的扩散模型采样。
  • 使用端到端训练直接从文本、风格与韵律生成波形,无固定声码器。
  • 用波形解码器(HifiGAN 或 iSTFTNet)替代梅尔频谱生成,并应用 AdaIN 进行风格条件化。
  • 引入大型 SLMs(例如 WavLM)作为判别器,并配合可微分的时长模型,以实现基于 SLM 的对抗训练(L_slm)。
  • 使用可微分的时长建模,将预测的音素时长以可微分的方式映射到帧上采样(高斯上采样和非参数方法)。
  • 通过对扩散模型进行说话人参考嵌入的条件化,并使用自适应风格化来实现说话人自适应,以处理多说话人设置。

实验结果

研究问题

  • RQ1风格扩散是否能够在无需参考语音的情况下实现多样化、高质量的 TTS,同时保持高效?
  • RQ2作为判别器的大型预训练 SLMs 是否能提升在对抗训练下的自然度和鲁棒性?
  • RQ3使用可微分时长建模的端到端训练是否能在标准数据集上达到人类水平的自然度和说话人相似性?
  • RQ4StyleTTS 2 在单说话人与多说话人设置,以及在零-shot 说话人自适应方面的表现如何?
  • RQ5StyleTTS 2 对分布外文本是否鲁棒,并在有限训练数据下是否具备数据效率?

主要发现

  • StyleTTS 2 在 LJSpeech 上相对于真实参考实现 CMOS 为 +0.28(p<0.05),相对于 NaturalSpeech 的 CMOS 为 +1.07(p<<0.01)。
  • 在多说话人数据集 VCTK 上,StyleTTS 2 在自然度上 CMOS 为 −0.02,相似度 CMOS 为 +0.30(分别为 p>0.05 和 p<0.1 比参考)。
  • StyleTTS 2 在 LJSpeech 上获得 MOS 3.83,超越了之前的模型,并在 VCTK 上达到接近真实值的人类水平自然度(CMOS 接近 ground truth)。
  • 在零-shot LibriTTS 自适应中,StyleTTS 2 在自然度上超过 Vall-E,CMOS +0.67(p<0.01),同时使用约 250 倍更少的训练数据(245 小时对比 60k 小时)。
  • StyleTTS 2 展现出强烈的 OOD 鲁棒性,在 OOD 文本的 MOS-N 上超越基线,并对未见内容的自然度降幅很小。
  • 该方法实现了风格扩散和基于 SLM 的对抗损失的端到端可微训练,在公开的单说话人和多说话人数据集上达到人类水平的 TTS。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。