Skip to main content
QUICK REVIEW

[论文解读] DiffWave: A Versatile Diffusion Model for Audio Synthesis

Zhifeng Kong, Wei Ping|arXiv (Cornell University)|Sep 21, 2020
Music and Audio Processing参考文献 51被引用 121
一句话总结

DiffWave 是一个非自回归的扩散模型,用于合成原始音频,在合成速度显著更快的同时达到 WaveNet 级的质感,在无条件和类别条件生成方面表现出色。

ABSTRACT

In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.

研究动机与目标

  • 使用非自回归扩散模型推进高保真原始音频合成。
  • 实现条件(梅尔频谱图和全局标签)和无条件波形生成两者。
  • 在保持较小模型规模和高效训练的同时,利用基于 ELBO 的目标实现具有竞争力的语音质量。

提出的方法

  • 使用扩散概率框架通过马尔可夫反向过程将白噪声映射到音频。
  • 采用通过 Ho 等人参数化的闭式 ELBO 训练,使用 ϵθ 去噪器和固定的 σθ。
  • 实现 DiffWave,采用受 WaveNet 启发但非自回归的前馈双向扩张卷积结构(Bi-DilConv)。
  • 引入扩 diffusion 步嵌入以对当前扩散步条件化 ϵθ。
  • 支持局部条件(梅尔频谱图)和全局条件(说话人/词语),以及通过利用跨扩散步的大感受野实现无条件生成。
  • 通过将反向过程简化为 Tinfer 步骤并设计方差日程来实现快速采样。

实验结果

研究问题

  • RQ1DiffWave 能否在以梅尔频谱图为条件的同时,提供显著快于自回归声码器的合成速度并实现高保真神经声码?
  • RQ2与自回归和基于 GAN 的模型相比,DiffWave 在无条件波形生成方面的音质和样本多样性表现如何?
  • RQ3在类别条件波形生成方面,DiffWave 相对于基线自回归模型是否具有竞争力或更优?
  • RQ4在不同扩散步数量和模型规模下,模型规模、速度和质量之间有哪些权衡?

主要发现

FID(下降)IS(上升)mIS(上升)AM(下降)NDB/K(下降)MOS(上升)
3.2792.547.61.3680.861.34 ± 0.29
2.9472.8410.01.2600.861.43 ± 0.30
1.3494.5336.60.7960.782.03 ± 0.33
1.2875.3059.40.6360.743.39 ± 0.32
0.0008.48281.40.1640.00
0.0118.47275.20.1660.103.72 ± 0.28
  • DiffWave 达到 WaveNet 声码器的质量(MOS:4.44 对比 4.43),且合成速度快出数量级。
  • 一个小型 DiffWave 模型(2.64M 参数)在 22.05 kHz 语音上达到 MOS 4.37,在 V100 上无须专门内核时也能实现>5× 实时速度。
  • 在无条件生成方面,DiffWave 在音质和样本多样性方面优于 WaveNet 和 WaveGAN,且在多项自动和人工评估中表现优越。
  • 在无条件生成中,DiffWave 的 MOS 为 3.39,优于 WaveNet(MOS 1.43)和 WaveGAN(MOS 2.03)。
  • 在类别条件生成中,DiffWave 获得 MOS 3.50(对比 WaveNet 1.58),深层版本达到 MOS 3.44。
  • DiffWave 展示了强大的无条件和有条件生成,质量具有竞争力,同时相较于许多基于流的声码器保持更小的模型规模。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。