QUICK REVIEW

[论文解读] Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech

Jaehyeon Kim, Jungil Kong|arXiv (Cornell University)|Jun 11, 2021

Speech Recognition and Synthesis参考文献 38被引用 121

一句话总结

VITS 通过一个采用条件 VAE、带归一化流与对抗训练的并行端到端 TTS 模型来生成自然语音，并配备一个随机时长预测器以实现多样化节奏，在 LJ Speech 上的 MOS 与真实值接近，在 VCTK 上具有强劲的多说话人性能。

ABSTRACT

Several recent end-to-end text-to-speech (TTS) models enabling single-stage training and parallel sampling have been proposed, but their sample quality does not match that of two-stage TTS systems. In this work, we present a parallel end-to-end TTS method that generates more natural sounding audio than current two-stage models. Our method adopts variational inference augmented with normalizing flows and an adversarial training process, which improves the expressive power of generative modeling. We also propose a stochastic duration predictor to synthesize speech with diverse rhythms from input text. With the uncertainty modeling over latent variables and the stochastic duration predictor, our method expresses the natural one-to-many relationship in which a text input can be spoken in multiple ways with different pitches and rhythms. A subjective human evaluation (mean opinion score, or MOS) on the LJ Speech, a single speaker dataset, shows that our method outperforms the best publicly available TTS systems and achieves a MOS comparable to ground truth.

研究动机与目标

通过启用带潜在变量建模的端到端训练来解决两阶段 TTS 的局限性。
通过归一化流提高先验和后验分布的表达能力。
建模并利用随机时长预测器以捕捉语音中的多样节律。
利用对抗训练提升波形的真实感，超越梅尔光谱重建。
展示相较公开的两阶段系统在质量与多说话人能力上的优势。

提出的方法

将 TTS 表述为以先验 p(z|c) 为基础、通过归一化流 f_theta 增强的条件 VAE，以实现富表达的潜在空间。
使用后验编码器 q_phi(z|x_lin)，在 MEL 谱域中重建并采用 L1 损失。
通过单调对齐搜索（MAS）估计文本与语音对齐 A，并对其进行改编以最大化 ELBO。
引入基于变分去量化与变分数据增强的随机时长预测器来建模语音节奏。
结合类似 HiFi-GAN 的解码器和鉴别器 D 的对抗训练，以及特征匹配损失，以实现稳定的高质量波形生成。
使用窗口化生成器训练以提升效率，同时实现端到端生成。

实验结果

研究问题

RQ1具有基于流的先验的条件 VAE 是否能在不依赖中间表示的情况下实现高质量的端到端波形合成？
RQ2将 MAS 基于对齐估计整合进 ELBO 优化是否能获得更好的文本到语音对齐？
RQ3随机时长预测器在端到端并行 TTS 中是否能提供多样的节律，同时保持自然度？
RQ4对抗训练和特征匹配对端到端 TTS 合成质量的影响是什么？
RQ5提议的端到端模型对多说话人语料的泛化能力如何？

主要发现

模型	MOS（CI）
真实值	4.46 ( ±0.06)
Tacotron 2 + HiFi-GAN	3.77 ( ±0.08)
Tacotron 2 + HiFi-GAN (Fine-tuned)	4.25 ( ±0.07)
Glow-TTS + HiFi-GAN	4.14 ( ±0.07)
Glow-TTS + HiFi-GAN (Fine-tuned)	4.32 ( ±0.07)
VITS (DDP)	4.39 ( ±0.06)
VITS	4.43 ( ±0.06)

VITS 在 LJ Speech 上的 MOS 与真实值相当，超越公开的两阶段系统。
先验编码器中的归一化流显著提升 MOS（移除时 MOS 降低 1.52）。
在后验路径中，使用线性尺度谱图作为后验输入比使用梅尔谱图输入具有更高的质量。
在 VCTK 上，VITS 的 MOS 高于 Tacotron 2+HiFi-GAN 和 Glow-TTS+HiFi-GAN 基线，证明了有效的多说话人建模。
随机时长预测器使音素时长与音高多样化，产生多样的语音节奏，同时保持质量。
VITS 在端到端生成方面比 Glow-TTS+HiFi-GAN 的合成更快，在 GPU 上达到实时或更快的性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。