QUICK REVIEW

[论文解读] DiffWave: A Versatile Diffusion Model for Audio Synthesis

Zhifeng Kong, Wei Ping|arXiv (Cornell University)|Sep 21, 2020

Music and Audio Processing参考文献 51被引用 121

一句话总结

DiffWave 是一个非自回归的扩散模型，用于合成原始音频，在合成速度显著更快的同时达到 WaveNet 级的质感，在无条件和类别条件生成方面表现出色。

ABSTRACT

In this work, we propose DiffWave, a versatile diffusion probabilistic model for conditional and unconditional waveform generation. The model is non-autoregressive, and converts the white noise signal into structured waveform through a Markov chain with a constant number of steps at synthesis. It is efficiently trained by optimizing a variant of variational bound on the data likelihood. DiffWave produces high-fidelity audios in different waveform generation tasks, including neural vocoding conditioned on mel spectrogram, class-conditional generation, and unconditional generation. We demonstrate that DiffWave matches a strong WaveNet vocoder in terms of speech quality (MOS: 4.44 versus 4.43), while synthesizing orders of magnitude faster. In particular, it significantly outperforms autoregressive and GAN-based waveform models in the challenging unconditional generation task in terms of audio quality and sample diversity from various automatic and human evaluations.

研究动机与目标

使用非自回归扩散模型推进高保真原始音频合成。
实现条件（梅尔频谱图和全局标签）和无条件波形生成两者。
在保持较小模型规模和高效训练的同时，利用基于 ELBO 的目标实现具有竞争力的语音质量。

提出的方法

使用扩散概率框架通过马尔可夫反向过程将白噪声映射到音频。
采用通过 Ho 等人参数化的闭式 ELBO 训练，使用 ϵθ 去噪器和固定的 σθ。
实现 DiffWave，采用受 WaveNet 启发但非自回归的前馈双向扩张卷积结构（Bi-DilConv）。
引入扩 diffusion 步嵌入以对当前扩散步条件化 ϵθ。
支持局部条件（梅尔频谱图）和全局条件（说话人/词语），以及通过利用跨扩散步的大感受野实现无条件生成。
通过将反向过程简化为 Tinfer 步骤并设计方差日程来实现快速采样。

实验结果

研究问题

RQ1DiffWave 能否在以梅尔频谱图为条件的同时，提供显著快于自回归声码器的合成速度并实现高保真神经声码？
RQ2与自回归和基于 GAN 的模型相比，DiffWave 在无条件波形生成方面的音质和样本多样性表现如何？
RQ3在类别条件波形生成方面，DiffWave 相对于基线自回归模型是否具有竞争力或更优？
RQ4在不同扩散步数量和模型规模下，模型规模、速度和质量之间有哪些权衡？

主要发现

FID(下降)	IS(上升)	mIS(上升)	AM(下降)	NDB/K(下降)	MOS(上升)
3.279	2.54	7.6	1.368	0.86	1.34 ± 0.29
2.947	2.84	10.0	1.260	0.86	1.43 ± 0.30
1.349	4.53	36.6	0.796	0.78	2.03 ± 0.33
1.287	5.30	59.4	0.636	0.74	3.39 ± 0.32
0.000	8.48	281.4	0.164	0.00	—
0.011	8.47	275.2	0.166	0.10	3.72 ± 0.28

DiffWave 达到 WaveNet 声码器的质量（MOS：4.44 对比 4.43），且合成速度快出数量级。
一个小型 DiffWave 模型（2.64M 参数）在 22.05 kHz 语音上达到 MOS 4.37，在 V100 上无须专门内核时也能实现>5× 实时速度。
在无条件生成方面，DiffWave 在音质和样本多样性方面优于 WaveNet 和 WaveGAN，且在多项自动和人工评估中表现优越。
在无条件生成中，DiffWave 的 MOS 为 3.39，优于 WaveNet（MOS 1.43）和 WaveGAN（MOS 2.03）。
在类别条件生成中，DiffWave 获得 MOS 3.50（对比 WaveNet 1.58），深层版本达到 MOS 3.44。
DiffWave 展示了强大的无条件和有条件生成，质量具有竞争力，同时相较于许多基于流的声码器保持更小的模型规模。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。