Skip to main content
QUICK REVIEW

[论文解读] MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

Szu‐Wei Fu, Cheng Yu|arXiv (Cornell University)|Apr 8, 2021
Speech and Audio Processing参考文献 34被引用 24
一句话总结

MetricGAN+ 通过将领域特定知识整合到 MetricGAN 框架中,利用三种新颖的训练技术优化感知质量,实现了在 VoiceBank-DEMAND 数据集上的 PESQ 得分为 3.15,相比原始 MetricGAN 提升了 0.3,达到最先进性能。

ABSTRACT

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).

研究动机与目标

  • 弥合自动语音增强度量与人类听觉感知之间的差距。
  • 通过整合语音处理领域的特定知识,提升原始 MetricGAN 的性能。
  • 开发一种优化非可微目标度量的语音增强训练框架。
  • 在 VoiceBank-DEMAND 数据集上实现最先进的语音增强质量。
  • 证明领域感知的训练技术可在无需可微度量的情况下提升感知质量。

提出的方法

  • 提出三种基于领域知识的训练技术,以改善语音增强中感知度量的优化。
  • 通过在训练过程中整合语音特定先验知识,改进原始 MetricGAN 框架。
  • 使用与客观评估度量对齐的判别器,即使这些度量不可微。
  • 在训练过程中利用评估函数的得分,引导生成器产出更具感知优势的结果。
  • 采用条件 GAN 架构,使生成器基于度量反馈学习将含噪语音映射为增强语音。
  • 使用结合度量得分作为监督信号的损失函数优化生成器,提升与人类感知的一致性。

实验结果

研究问题

  • RQ1领域特定知识能否提升基于度量的语音增强模型的性能?
  • RQ2整合语音处理先验知识对非可微感知度量的优化有何影响?
  • RQ3基于 GAN 的框架在使用感知度量反馈训练时,能否实现最先进的语音增强质量?
  • RQ4所提出的训练技术对 PESQ 及其他客观度量有何影响?
  • RQ5改进的训练策略是否使增强语音相比基线方法更具自然感?

主要发现

  • MetricGAN+ 在 VoiceBank-DEMAND 数据集上实现了 3.15 的 PESQ 得分,相比原始 MetricGAN 提升了 0.3。
  • 该模型在语音增强任务中实现了最先进性能,在基准数据集上优于先前方法。
  • 所提出的训练技术显著提升了感知质量,且无需依赖可微度量。
  • 该框架通过将度量得分作为训练信号,成功优化了非可微客观度量。
  • 领域知识的整合使输出语音更具自然感,这一点得到了 PESQ 和主观评估度量的验证。
  • 该方法在 VoiceBank-DEMAND 数据集的多样化噪声条件下表现出良好的鲁棒性与泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。