QUICK REVIEW

[论文解读] GANSynth: Adversarial Neural Audio Synthesis

Jesse Engel, Kumar Krishna Agrawal|arXiv (Cornell University)|Feb 23, 2019

Generative Adversarial Networks and Image Synthesis参考文献 37被引用 239

一句话总结

GANSynth 展示了高保真、局部一致的音频合成，通过 GANs 生成对数幅度谱和瞬时频率，并以音高作为条件，实现更快的生成速度，并在 NSynth 上的感知质量与 WaveNet 相媲美。

ABSTRACT

Efficient audio synthesis is an inherently difficult machine learning task, as human perception is sensitive to both global structure and fine-scale waveform coherence. Autoregressive models, such as WaveNet, model local structure at the expense of global latent structure and slow iterative sampling, while Generative Adversarial Networks (GANs), have global latent conditioning and efficient parallel sampling, but struggle to generate locally-coherent audio waveforms. Herein, we demonstrate that GANs can in fact generate high-fidelity and locally-coherent audio by modeling log magnitudes and instantaneous frequencies with sufficient frequency resolution in the spectral domain. Through extensive empirical investigations on the NSynth dataset, we demonstrate that GANs are able to outperform strong WaveNet baselines on automated and human evaluation metrics, and efficiently generate audio several orders of magnitude faster than their autoregressive counterparts.

研究动机与目标

推动高效的神经音频合成，保持全局结构与局部波形一致性。
研究在使用频谱域表示时，GANs 是否能在音频任务上超过自回归模型。
评估不同表示（log-magnitude、phase、瞬时频率、mel scale）对音质与一致性的影响。
展示全局条件对音色-音高插值的作用，并评估相对于自回归基线的生成速度提升。

提出的方法

将音频表示为基于 STFT 的谱图，包含幅度和相位通道或其导数（瞬时频率）。
在逐步生长和梯度惩罚下训练 GANs，以音高作为一热向量进行条件化，并附加一个辅助音高分类器损失。
比较表示：log-magnitude 与 phase、instantaneous frequency、phase，以及高频分辨率 (+H) 变体，另有 mel-scale 变体 (IF-Mel)。
使用辅助分类器 GAN 设定以促进音高一致的生成。
在 NSynth 上与 WaveGAN 和 WaveNet 基线进行基准比较，使用人类和自动化指标（NDB、FID、IS、PA、PE）。
评估生成速度并展示并行、非自回归的合成。

实验结果

研究问题

RQ1在使用光谱表示训练时，GANs 是否能够合成具有高感知质量和局部波形一致性的音频？
RQ2将对数幅度谱、瞬时频率和相位表示结合，是否相较直接的波形生成在一致性方面有所提升？
RQ3音高条件如何影响基于 GAN 的音频生成中的音色一致性和感知插值？
RQ4与自回归的 WaveNet 和 WaveGAN 基线相比，音质和生成速度的相对提升有哪些？

主要发现

用 log-magnitude 谱以及相位或瞬时频率训练的 GAN 能产生比直接波形生成更连贯的波形。
估计瞬时频率（IF）比仅估计相位更能产生连贯的音频。
提高谱分辨率并使用 mel 尺度表示有助于分离泛音并提升质量。
在 NSynth 上，GAN 在自动指标和人工评测上都优于强大的 WaveNet 基线，同时实现比自回归模型快数量级的生成速度。
对潜在向量和音高的全局条件实现了感知上平滑的音色插值，并在不同音高下保持一致的音色身份。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。