Skip to main content
QUICK REVIEW

[论文解读] HiFi-GAN: High-Fidelity Denoising and Dereverberation Based on Speech Deep Features in Adversarial Networks

Jiaqi Su, Zeyu Jin|arXiv (Cornell University)|Jun 10, 2020
Speech and Audio Processing参考文献 41被引用 19
一句话总结

HiFi-GAN 提出了一种基于 WaveNet 的端到端生成对抗网络,用于高保真语音增强,通过在时域和时频域中使用多尺度、多域判别器,利用深度特征匹配提升感知质量。该方法在去噪、反混响和音频质量方面均达到最先进性能,在客观和主观评估中显著优于先前方法。

ABSTRACT

Real-world audio recordings are often degraded by factors such as noise, reverberation, and equalization distortion. This paper introduces HiFi-GAN, a deep learning method to transform recorded speech to sound as though it had been recorded in a studio. We use an end-to-end feed-forward WaveNet architecture, trained with multi-scale adversarial discriminators in both the time domain and the time-frequency domain. It relies on the deep feature matching losses of the discriminators to improve the perceptual quality of enhanced speech. The proposed model generalizes well to new speakers, new speech content, and new environments. It significantly outperforms state-of-the-art baseline methods in both objective and subjective experiments.

研究动机与目标

  • 开发一种能跨新说话人、语音内容和环境泛化的高保真语音增强方法。
  • 解决单通道录音中噪声、混响和均衡失真等多重挑战。
  • 通过深度特征匹配引入类人感知,提升感知质量,超越客观指标。
  • 通过时域和时频域中的多尺度、多域判别器,稳定 GAN 训练并减少伪影。
  • 直接从原始波形端到端进行增强,以最小化相位引起的失真。

提出的方法

  • 使用前馈 WaveNet 作为生成器,将含噪、混响的语音映射为干净波形。
  • 在原始波形上使用多个在不同时间分辨率下运行的判别器,以捕捉多尺度时间结构。
  • 引入一个独立的判别器处理梅尔频谱图,以建模时频域特征。
  • 从多个判别器应用深度特征匹配损失,引导生成器输出更符合感知自然的语音。
  • 结合对抗损失与来自判别器中间特征图的感知损失,以稳定训练并提升真实感。
  • 在 WaveNet 后使用 Postnet 模块,以优化输出并减少残留伪影。

实验结果

研究问题

  • RQ1单一深度学习模型能否在多样化的说话人、语音内容和录音环境中有效泛化于语音增强任务?
  • RQ2结合多尺度、多域对抗训练与深度特征匹配,是否能超越标准 GAN 和客观指标,进一步提升感知质量?
  • RQ3时频域判别器的引入如何影响基于波形的语音增强的稳定性和质量?
  • RQ4与固定或微调的损失网络相比,预训练判别器的深度特征匹配在提升音频保真度方面有多显著?
  • RQ5在强混响和噪声环境下,端到端波形方法是否能超越基于谱图的方法?

主要发现

  • 在 VCTK 含噪数据集上,HiFi-GAN 的 PESQ 得分达到最高(2.94),优于所有基线方法,包括 MetricGAN 和 Wave-U-Net。
  • 在主观 MOS 测试中,HiFi-GAN 获得最高平均意见分,并在超过 90% 的成对比较中被优先选择。
  • 波形与频谱图判别器的结合显著提升了训练稳定性和收敛性;若移除频谱图判别器,性能明显下降。
  • HiFi-GAN 在未见说话人和环境上表现出良好泛化能力,展现出超越训练分布的鲁棒性。
  • 在混响条件下,该方法优于基于谱图的基线方法,凸显了时频表示在学习过程中的重要性。
  • Postnet 微调进一步提升了性能,HiFi-GAN + Postnet 的 CSIG 得分为 4.07,仅次于 MetricGAN,但在 PESQ 和 COVL 上表现更优。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。