QUICK REVIEW

[论文解读] MelGAN: Generative Adversarial Networks for Conditional Waveform Synthesis

Kundan Kumar, Rithesh Kumar|arXiv (Cornell University)|Oct 8, 2019

Speech and Audio Processing被引用 598

一句话总结

MelGAN 训练一个轻量级、非自回归的GAN，将梅尔频谱反演为原始音频，具有高质量和快推理，在说话人和领域上具泛化能力。

ABSTRACT

Previous works (Donahue et al., 2018a; Engel et al., 2019a) have found that generating coherent raw audio waveforms with GANs is challenging. In this paper, we show that it is possible to train GANs reliably to generate high quality coherent waveforms by introducing a set of architectural changes and simple training techniques. Subjective evaluation metric (Mean Opinion Score, or MOS) shows the effectiveness of the proposed approach for high quality mel-spectrogram inversion. To establish the generality of the proposed techniques, we show qualitative results of our model in speech synthesis, music domain translation and unconditional music synthesis. We evaluate the various components of the model through ablation studies and suggest a set of guidelines to design general purpose discriminators and generators for conditional sequence synthesis tasks. Our model is non-autoregressive, fully convolutional, with significantly fewer parameters than competing models and generalizes to unseen speakers for mel-spectrogram inversion. Our pytorch implementation runs at more than 100x faster than realtime on GTX 1080Ti GPU and more than 2x faster than real-time on CPU, without any hardware specific optimization tricks.

研究动机与目标

激励使用 GAN 生成连贯的原始音频的挑战。
提出一个非自回归、全卷积的生成器用于梅尔-频谱反演。
引入一个多尺度、基于窗口的判别器，采用 hinge 损失和特征匹配。
展示高效性：参数更少，CPU/GPU 推理更快，与基线相比。
展示对未见说话人以及在语音、音乐翻译和无条件合成等应用中的泛化能力。

提出的方法

生成器：从梅尔频谱到波形的全卷积上采样，使用膨胀残差块并通过小心的上采样以避免棋盘伪影。
归一化：在所有生成器层使用权重归一化以稳定训练；避免实例归一化或谱归一化。
判别器：多尺度的窗口式判别器，在原始、1/2、1/4 音频尺度上工作，具备大的感受野。
训练目标：hinge 损失的 GAN 目标加上跨判别器层的特征匹配损失 (LFM)；生成器优化对抗损失与加权特征匹配损失之和（lambda=10）。
结构设计考虑：通过膨胀卷积引入对长期时序依赖的归纳偏置；通过卷积核大小/步长的选择控制棋盘伪影；不输入全局噪声向量。
评估：基于 MOS 的听力测试，覆盖梅尔频谱反演、端到端 TTS，以及音乐翻译和 VQ-VAE 情境中的非自回归扩展。

实验结果

研究问题

RQ1一个非自回归、全卷积的 GAN 是否能可靠地从梅尔频谱合成高质量的原始音频？
RQ2多尺度、基于窗口的判别器是否提升音频片段间的可听保真度与连贯性？
RQ3MelGAN 相较于自回归声码器及其他非自回归方法在 MOS 上如何？
RQ4MelGAN 是否能泛化到未见说话人，并整合进端到端 TTS 与音乐翻译流程？

主要发现

模型	MOS	95% CI
Griffin Lim	1.57	± 0.04
WaveGlow	4.11	± 0.05
WaveNet	4.05	± 0.05
MelGAN	3.61	± 0.06
Original	4.52	± 0.04

MelGAN 在梅尔频谱反演和端到端 TTS 上，与 WaveGlow 和 WaveNet 相比，获得具有竞争力的 MOS 分数。
模型轻量（4.26M 参数），在 CPU/GPU 上实现 50-2600 kHz 的推理速度，在速度方面优于基线。
多尺度、基于窗口的判别器和特征匹配对音质至关重要；移除这些组件会降低 MOS。
MelGAN 能泛化到未见说话人，当在多说话人数据上训练时，表明 mel-to-waveform 映射对说话人不变。
使用 MelGAN 的端到端 TTS（Text2mel + MelGAN）在 MOS 上与 Griffin-Lim 相当甚至更好，并且与基于 WaveGlow 的基线具有竞争力；原始高质量参考仍然更优。
MelGAN 可以在音乐翻译和 VQ-VAE 场景中替代自回归解码器，显著提速（例如，GPU 上约 0.16 秒即可生成 1 秒音频）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。