QUICK REVIEW

[论文解读] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

Rongjie Huang, Max W. Y. Lam|arXiv (Cornell University)|Apr 21, 2022

Speech Recognition and Synthesis被引用 28

一句话总结

FastDiff 引入一个快速的条件扩散模型，具备时序感知的位置可变卷积和噪声时间表预测器，以在仅需 4 步扩散的情况下实现高质量语音，从而实现实时或低于实时的 TTS。此外，本文还提出了用于端到端波形合成的 FastDiff-TTS。

ABSTRACT

Denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hindered their applications to speech synthesis. This paper proposes FastDiff, a fast conditional diffusion model for high-quality speech synthesis. FastDiff employs a stack of time-aware location-variable convolutions of diverse receptive field patterns to efficiently model long-term time dependencies with adaptive conditions. A noise schedule predictor is also adopted to reduce the sampling steps without sacrificing the generation quality. Based on FastDiff, we design an end-to-end text-to-speech synthesizer, FastDiff-TTS, which generates high-fidelity speech waveforms without any intermediate feature (e.g., Mel-spectrogram). Our evaluation of FastDiff demonstrates the state-of-the-art results with higher-quality (MOS 4.28) speech samples. Also, FastDiff enables a sampling speed of 58x faster than real-time on a V100 GPU, making diffusion models practically applicable to speech synthesis deployment for the first time. We further show that FastDiff generalized well to the mel-spectrogram inversion of unseen speakers, and FastDiff-TTS outperformed other competing methods in end-to-end text-to-speech synthesis. Audio samples are available at \url{https://FastDiff.github.io/}.

研究动机与目标

在工业场景中推动用于高质量、实时语音合成的扩散模型。
开发一个快速、鲁棒的基于扩散的音频合成器，能够处理嘈杂样本中的长期时间依赖。
通过学习的噪声时间表减少反向采样步数以维持质量。
实现端到端文本到语音（FastDiff-TTS），直接从文本生成波形。
证明对未见说话人具有泛化能力，并在与最新基线相比时获得竞争力甚至更高的 MOS 分数。

提出的方法

提出 FastDiff，一种快速的条件扩散模型，使用一组时序感知的位置可变卷积来捕获受扩散时间和声学特征条件约束的长期时间依赖。
引入噪声时间表预测器以推导出一个简短且有效的采样时间表，从而实现少步反向扩散。
训练一个迭代化的精细化模型 θ，以最小化基于评分的目标，并训练一个独立的噪声预测器 φ，以学习更紧凑的噪声时间表（如文中所述的基于 ELBO 的训练）。
通过时间表对齐将连续噪声时间表与离散训练步对齐，以实现用较少步数进行高效推理。
扩展为 FastDiff-TTS，一种端到端的 TTS 系统，直接从带音素嵌入的上下文解码波形，且不使用中间的 Mel 频谱，采用 FastSpeech 2 风格的编码器和基于扩散的解码器。
加入包括时长预测、扩散噪声重建和音高重建在内的损失项，以稳定端到端 TTS 的训练。

实验结果

研究问题

RQ1FastDiff 是否能在仅使用少量扩散步骤的情况下实现高质量语音，同时保持自然度和易懂性？
RQ2时序感知的位置可变卷积是否在基于扩散的声码器中相较传统卷积提高鲁棒性和采样速度？
RQ3学习到的噪声时间表能在不牺牲质量的前提下将扩散采样加速到多少？
RQ4端到端的基于扩散的 TTS（FastDiff-TTS）在质量上是否能够达到或超过级联 TTS 系统，同时简化流程？
RQ5FastDiff 是否能很好地泛化到未见说话人和条件（例如多说话人 TTS）？

主要发现

FastDiff 在仅需 4 步采样的情况下实现高质量语音，提供与最先进音频合成器相竞争的 MOS 分数。
FastDiff 在 V100 GPU 上实现了比实时快 58 倍的采样速度，且无需专用内核。
时序感知的位置可变卷积在采样速度和感知质量方面显著优于传统卷积。
噪声时间表预测器使推理高效，在质量相对于较慢的网格搜索调度几乎不下降。
FastDiff-TTS，一种端到端的 TTS 系统，能够超越竞争的端到端模型并达到级联 TTS 流水线的质量。
FastDiff 在未见说话人上的泛化能力很强，在域外数据的 Mel- spectrogram 反演中保持鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。