QUICK REVIEW

[论文解读] WaveGrad: Estimating Gradients for Waveform Generation

Nanxin Chen, Yu Zhang|arXiv (Cornell University)|Sep 2, 2020

Music and Audio Processing参考文献 59被引用 44

一句话总结

WaveGrad 是一个扩散/基于分数的条件波形生成器，估计数据密度梯度以非自回归地产生高保真音频，在仅有六步细化的情况下，达到接近自回归基线的质量并具有更快的推理速度。

ABSTRACT

This paper introduces WaveGrad, a conditional model for waveform generation which estimates gradients of the data density. The model is built on prior work on score matching and diffusion probabilistic models. It starts from a Gaussian white noise signal and iteratively refines the signal via a gradient-based sampler conditioned on the mel-spectrogram. WaveGrad offers a natural way to trade inference speed for sample quality by adjusting the number of refinement steps, and bridges the gap between non-autoregressive and autoregressive models in terms of audio quality. We find that it can generate high fidelity audio samples using as few as six iterations. Experiments reveal WaveGrad to generate high fidelity audio, outperforming adversarial non-autoregressive baselines and matching a strong likelihood-based autoregressive baseline using fewer sequential operations. Audio samples are available at https://wavegrad.github.io/.

研究动机与目标

推动超越自回归模型的快速高质量波形生成。
利用数据密度梯度（score）学习来建模条件音频分布。
开发一个非自回归生成器，在推断速度与样本质量之间具有可控的权衡。
研究条件化方案（连续噪声水平与离散步数索引）以实现鲁棒推断。
在 MOS 与客观指标上对比自回归与非自回归基线进行评估。

提出的方法

模型学习数据对数密度的梯度（score），并使用类似 Langevin 动力学的采样器进行推断。
将扩散概率模型改编为带有 Mel-谱图条件的条件波形生成。
在以连续噪声水平 ¯α 为条件的加权去噪分数匹配目标下进行训练（与以离散步数索引为条件的做法相比）。
利用基于梯度的采样器从高斯噪声开始逐步去噪到 y0。
结构是全卷积且非自回归，支持并行推断。
评估连续噪声水平条件与离散索引条件的效果并分析噪声计划与迭代次数。

实验结果

研究问题

RQ1WaveGrad 是否能够在非自回归框架下达到与自回归基线相媲美的高保真音频？
RQ2以连续噪声水平作为条件是否比以离散迭代索引作为条件在灵活性和样本质量方面有改进？
RQ3推断迭代次数对音质与速度的影响如何，不同的噪声计划又如何影响性能？
RQ4WaveGrad 与已建立的声码器（自回归和非自回归）在主观 MOS 与客观指标上有何比较？

主要发现

WaveGrad 在 MOS 方面与自回归 WaveRNN 基线相匹配，同时优于若干非自回归基线。
六次推断迭代并采用连续噪声条件可产生高保真音频（MOS 约 4.41），在 NVIDIA V100 GPU 上的实时因子（RTF）为 0.2。
离散索引条件的变体需要为每个时间计划分别训练模型，而连续噪声条件可以用单一模型支持多种计划。
连续噪声条件的泛化能力更强，且在少量迭代时保持质量优于离散条件。
WaveGrad Base 在六次迭代下的 MOS 可与需 1,000 次迭代的离散模型相媲美，同时显著加速推断（RTF 0.2）。
总体而言，WaveGrad 在远少于 WaveRNN 的顺序操作数下即可生成高保真音频（同一 GPU 上 RTF 约为 20.1）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。