[论文解读] Adversarial Audio Synthesis
本文提出 WaveGAN 与 SpecGAN,用于使用 GAN 进行无监督原始音频生成,在跨领域(语音、鼓乐、鸟鸣、钢琴)实现一秒钟的连贯音频,并通过人工判断和基于 inception 的指标进行评估。
Audio signals are sampled at high temporal resolutions, and learning to synthesize audio requires capturing structure across a range of timescales. Generative adversarial networks (GANs) have seen wide success at generating images that are both locally and globally coherent, but they have seen little application to audio generation. In this paper we introduce WaveGAN, a first attempt at applying GANs to unsupervised synthesis of raw-waveform audio. WaveGAN is capable of synthesizing one second slices of audio waveforms with global coherence, suitable for sound effect generation. Our experiments demonstrate that, without labels, WaveGAN learns to produce intelligible words when trained on a small-vocabulary speech dataset, and can also synthesize audio from other domains such as drums, bird vocalizations, and piano. We compare WaveGAN to a method which applies GANs designed for image generation on image-like audio feature representations, finding both approaches to be promising.
研究动机与目标
- 激励并探索用 GANs 进行原始音频的无监督生成,而不是依赖声谱图或自回归模型。
- 开发 WaveGAN,利用从 DCGAN 改编的 GAN 架构生成一秒的原始波形音频。
- 开发 SpecGAN,以生成半可逆的声谱图并与基于波形的生成进行比较。
- 在多个音频领域(包括语音、鼓乐、鸟鸣声和钢琴)评估生成质量、多样性和可懂度。
- 提供将图片生成 GAN 迁移到音频合成的实用指南和基线模板。
提出的方法
- 通过使用更长的一维滤波器(长度 25)并以 4 倍上采样,将 DCGAN 适配为一维波形生成(WaveGAN),并在判别器中引入相位打乱以减少伪影。
- 提出在声谱图上运行、带有近似可逆路径的 SpecGAN,使用 Griffin-Lim 进行波形恢复。
- 应用 WGAN-GP 训练以稳定 GAN 的优化。
- 使用相位打乱在判别器中实现相位不变性(n ∈ {1,2,4})。
- 使用在 SC09 训练的音频分类器上计算的感知分数(inception score),以及多样性、训练数据接近度指标和人工评估进行评估。
实验结果
研究问题
- RQ1在不使用标注条件的情况下,GANs 能否学习高维音频数据的全局结构?
- RQ2在不同领域中,基于波形的和基于声谱图的 GAN 方法在无监督音频合成方面的比较如何?
- RQ3哪些正则化或结构性选择(如相位打乱)能够提升音频生成质量与多样性?
- RQ4生成人类是否能理解的音频?与真实数据和自回归基线相比表现如何?
主要发现
- 在无条件设置下,WaveGAN 和 SpecGAN 能生成可理解的数字语音。
- 尽管 SpecGAN 的 inception 分数更高,WaveGAN 通常在主观音质和说话人多样性方面表现更好。
- 相位打乱在某些配置下提高或稳定了生成,显著优于此设置中的 dropout 等正则化方法。
- WaveGAN 在 SC09 上的 inception 分数为 4.7;在同一环境下 SpecGAN 达到 6.03,真实测试数据为 8.01。
- 在各领域(鼓、鸟鸣、钢琴、TIMIT)中,WaveGAN 能产生感知上连贯的音频样本并捕捉到域内一致的结构;SpecGAN 的变体在方差捕捉方面表现更强,但可能出现与反演相关的伪影。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。