QUICK REVIEW

[论文解读] MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement

Szu‐Wei Fu, Cheng Yu|arXiv (Cornell University)|Apr 8, 2021

Speech and Audio Processing参考文献 34被引用 24

一句话总结

MetricGAN+ 通过将领域特定知识整合到 MetricGAN 框架中，利用三种新颖的训练技术优化感知质量，实现了在 VoiceBank-DEMAND 数据集上的 PESQ 得分为 3.15，相比原始 MetricGAN 提升了 0.3，达到最先进性能。

ABSTRACT

The discrepancy between the cost function used for training a speech enhancement model and human auditory perception usually makes the quality of enhanced speech unsatisfactory. Objective evaluation metrics which consider human perception can hence serve as a bridge to reduce the gap. Our previously proposed MetricGAN was designed to optimize objective metrics by connecting the metric with a discriminator. Because only the scores of the target evaluation functions are needed during training, the metrics can even be non-differentiable. In this study, we propose a MetricGAN+ in which three training techniques incorporating domain-knowledge of speech processing are proposed. With these techniques, experimental results on the VoiceBank-DEMAND dataset show that MetricGAN+ can increase PESQ score by 0.3 compared to the previous MetricGAN and achieve state-of-the-art results (PESQ score = 3.15).

研究动机与目标

弥合自动语音增强度量与人类听觉感知之间的差距。
通过整合语音处理领域的特定知识，提升原始 MetricGAN 的性能。
开发一种优化非可微目标度量的语音增强训练框架。
在 VoiceBank-DEMAND 数据集上实现最先进的语音增强质量。
证明领域感知的训练技术可在无需可微度量的情况下提升感知质量。

提出的方法

提出三种基于领域知识的训练技术，以改善语音增强中感知度量的优化。
通过在训练过程中整合语音特定先验知识，改进原始 MetricGAN 框架。
使用与客观评估度量对齐的判别器，即使这些度量不可微。
在训练过程中利用评估函数的得分，引导生成器产出更具感知优势的结果。
采用条件 GAN 架构，使生成器基于度量反馈学习将含噪语音映射为增强语音。
使用结合度量得分作为监督信号的损失函数优化生成器，提升与人类感知的一致性。

实验结果

研究问题

RQ1领域特定知识能否提升基于度量的语音增强模型的性能？
RQ2整合语音处理先验知识对非可微感知度量的优化有何影响？
RQ3基于 GAN 的框架在使用感知度量反馈训练时，能否实现最先进的语音增强质量？
RQ4所提出的训练技术对 PESQ 及其他客观度量有何影响？
RQ5改进的训练策略是否使增强语音相比基线方法更具自然感？

主要发现

MetricGAN+ 在 VoiceBank-DEMAND 数据集上实现了 3.15 的 PESQ 得分，相比原始 MetricGAN 提升了 0.3。
该模型在语音增强任务中实现了最先进性能，在基准数据集上优于先前方法。
所提出的训练技术显著提升了感知质量，且无需依赖可微度量。
该框架通过将度量得分作为训练信号，成功优化了非可微客观度量。
领域知识的整合使输出语音更具自然感，这一点得到了 PESQ 和主观评估度量的验证。
该方法在 VoiceBank-DEMAND 数据集的多样化噪声条件下表现出良好的鲁棒性与泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。