[论文解读] DiffWave: A Versatile Diffusion Model for Audio Synthesis
DiffWave 是一个非自回归的扩散模型,用于合成原始音频,在合成速度显著更快的同时达到 WaveNet 级的质感,在无条件和类别条件生成方面表现出色。
In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.
研究动机与目标
- 使用非自回归扩散模型推进高保真原始音频合成。
- 实现条件(梅尔频谱图和全局标签)和无条件波形生成两者。
- 在保持较小模型规模和高效训练的同时,利用基于 ELBO 的目标实现具有竞争力的语音质量。
提出的方法
- 使用扩散概率框架通过马尔可夫反向过程将白噪声映射到音频。
- 采用通过 Ho 等人参数化的闭式 ELBO 训练,使用 ϵθ 去噪器和固定的 σθ。
- 实现 DiffWave,采用受 WaveNet 启发但非自回归的前馈双向扩张卷积结构(Bi-DilConv)。
- 引入扩 diffusion 步嵌入以对当前扩散步条件化 ϵθ。
- 支持局部条件(梅尔频谱图)和全局条件(说话人/词语),以及通过利用跨扩散步的大感受野实现无条件生成。
- 通过将反向过程简化为 Tinfer 步骤并设计方差日程来实现快速采样。
实验结果
研究问题
- RQ1DiffWave 能否在以梅尔频谱图为条件的同时,提供显著快于自回归声码器的合成速度并实现高保真神经声码?
- RQ2与自回归和基于 GAN 的模型相比,DiffWave 在无条件波形生成方面的音质和样本多样性表现如何?
- RQ3在类别条件波形生成方面,DiffWave 相对于基线自回归模型是否具有竞争力或更优?
- RQ4在不同扩散步数量和模型规模下,模型规模、速度和质量之间有哪些权衡?
主要发现
| FID(下降) | IS(上升) | mIS(上升) | AM(下降) | NDB/K(下降) | MOS(上升) |
|---|---|---|---|---|---|
| 3.279 | 2.54 | 7.6 | 1.368 | 0.86 | 1.34 ± 0.29 |
| 2.947 | 2.84 | 10.0 | 1.260 | 0.86 | 1.43 ± 0.30 |
| 1.349 | 4.53 | 36.6 | 0.796 | 0.78 | 2.03 ± 0.33 |
| 1.287 | 5.30 | 59.4 | 0.636 | 0.74 | 3.39 ± 0.32 |
| 0.000 | 8.48 | 281.4 | 0.164 | 0.00 | — |
| 0.011 | 8.47 | 275.2 | 0.166 | 0.10 | 3.72 ± 0.28 |
- DiffWave 达到 WaveNet 声码器的质量(MOS:4.44 对比 4.43),且合成速度快出数量级。
- 一个小型 DiffWave 模型(2.64M 参数)在 22.05 kHz 语音上达到 MOS 4.37,在 V100 上无须专门内核时也能实现>5× 实时速度。
- 在无条件生成方面,DiffWave 在音质和样本多样性方面优于 WaveNet 和 WaveGAN,且在多项自动和人工评估中表现优越。
- 在无条件生成中,DiffWave 的 MOS 为 3.39,优于 WaveNet(MOS 1.43)和 WaveGAN(MOS 2.03)。
- 在类别条件生成中,DiffWave 获得 MOS 3.50(对比 WaveNet 1.58),深层版本达到 MOS 3.44。
- DiffWave 展示了强大的无条件和有条件生成,质量具有竞争力,同时相较于许多基于流的声码器保持更小的模型规模。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。