[论文解读] Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech
Grad-TTS 引入了一个用于 TTS 的扩散式声学特征生成器,使用基于分数的解码器和单调对齐搜索(Monotonic Alignment Search)来生成梅尔谱图;它提供可控的速度-质量权衡,并具备具有竞争力的 MOS 分数。
Recently, denoising diffusion probabilistic models and generative score matching have shown high potential in modelling complex data distributions while stochastic calculus has provided a unified point of view on these techniques allowing for flexible inference schemes. In this paper we introduce Grad-TTS, a novel text-to-speech model with score-based decoder producing mel-spectrograms by gradually transforming noise predicted by encoder and aligned with text input by means of Monotonic Alignment Search. The framework of stochastic differential equations helps us to generalize conventional diffusion probabilistic models to the case of reconstructing data from noise with different parameters and allows to make this reconstruction flexible by explicitly controlling trade-off between sound quality and inference speed. Subjective human evaluation shows that Grad-TTS is competitive with state-of-the-art text-to-speech approaches in terms of Mean Opinion Score. We will make the code publicly available shortly.
研究动机与目标
- 为 TTS 的声学特征生成提供扩散概率建模的动机。
- 开发 Grad-TTS,使其能够通过 MAS 对齐特征将高斯噪声转换为条件于编码文本的梅尔谱图。
- 在扩展设置中通过用原始波形生成替代梅尔谱图输出,开启端到端 TTS 的潜力。
- 提供一种通过改变扩散步数来权衡推理速度与质量的机制。
提出的方法
- 提出将数据映射到高斯噪声的前向扩散,具有广义均值/对角协方差 (mu, Sigma)。
- 通过带有分数梯度估计的 SDE/ODE 推导反向扩散,使用神经网络 s_theta(X_t, mu, t)。
- 使用类似评分匹配的损失进行训练,以估计噪声数据分布的梯度,结合基于编码器的对齐 mu。
- 使用 Monotonic Alignment Search (MAS) 获取文本到对齐梅尔谱图的映射,并训练一个时长预测器。
- 采用以编码器输出为条件的 U-Net 解码器,在多分辨率梅尔谱图表示上工作,并实现可变的推理步数。
实验结果
研究问题
- RQ1扩散概率模型能否作为有效的 TTS 声学特征生成器?
- RQ2MAS 对齐的编码结合基于分数的解码器能否在可调推理速度下提供具有竞争力的语音质量?
- RQ3在 MOS 和客观指标上,Grad-TTS 与自回归和非自回归基线相比如何?
- RQ4通过直接从扩散解码生成波形,是否可行将 Grad-TTS 扩展为端到端 TTS?
- RQ5改变扩散步数对语音质量和实时性能有何影响?
主要发现
| 模型 | 编码参数 | 解码参数 | RTF | 对数似然 | MOS |
|---|---|---|---|---|---|
| Grad-TTS-1000 | 7.2m | 7.6m | 3.663 | 0.174±0.001 | 4.44±0.05 |
| Glow-TTS | 7.2m | 21.4m | 0.008 | 0.082 | 4.11±0.07 |
| FastSpeech | 24.5m | 0.004 | - | - | 3.68±0.09 |
| Tacotron2 | 28.2m | 0.075 | - | - | 4.32±0.07 |
| Ground Truth | - | - | - | - | 4.53±0.06 |
- 在某些设置下,基于扩散解码的 Grad-TTS 实现了与 Tacotron2 竞争的 MOS,且接近真实值。
- 增加反向扩散迭代次数可以提高 MOS,但提升在大约 10–100 次迭代左右会因设置而异而趋于饱和。
- Grad-TTS-1000 在使用足够高的迭代次数时,具备实时 GPU 合成能力,MOS 近似真实值(4.44±0.05 对 4.53±0.06)。
- 该模型在解码步骤低于 100 时在 GPU 上实现实时合成,参数量约为 1500 万,并在速度与质量权衡方面优于某些基线。
- 端到端的基于扩散的 TTS 是可行的,但在质量方面目前落后于基于梅尔谱图的 Grad-TTS,提示未来有 WaveGrad 风格的端到端扩散设置潜力。
- 相比 Glow-TTS 和 FastSpeech,Grad-TTS 展现出具有竞争力的 MOS,以及在对齐与发音方面的改进可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。