QUICK REVIEW

[论文解读] Boosting Objective Scores of Speech Enhancement Model through MetricGAN Post-Processing

Szu‐Wei Fu, Chien-Feng Liao|arXiv (Cornell University)|Jun 18, 2020

Speech and Audio Processing参考文献 15被引用 5

一句话总结

本文提出了一种基于MetricGAN的后处理框架，通过将位置编码替换为卷积层，对卷积Transformer进行微调，以提升PESQ得分。该方法在客观和主观评估中均显著优于DNS挑战赛基线模型。

ABSTRACT

The Transformer architecture has shown its superior ability than recurrent neural networks on many different natural language processing applications. Therefore, this study applies a modified Transformer on the speech enhancement task. Specifically, the positional encoding may not be necessary and hence is replaced by convolutional layers. To further improve PESQ scores of enhanced speech, the L_1 pre-trained Transformer is fine-tuned by MetricGAN framework. The proposed MetricGAN can be treated as a general post-processing module to further boost interested objective scores. The experiments are conducted using the data sets provided by the organizer of the Deep Noise Suppression (DNS) challenge. Experimental results demonstrate that the proposed system outperforms the challenge baseline in both subjective and objective evaluation with a large margin.

研究动机与目标

提升语音增强模型的客观语音质量评分，特别是PESQ得分。
通过用卷积层替代位置编码，解决标准Transformer在语音增强任务中的局限性。
利用MetricGAN框架作为通用后处理模块，以提升特定客观指标。
在DNS挑战赛的真实噪声语音数据上评估所提出方法的性能。

提出的方法

修改后的Transformer架构用卷积层替代正弦位置编码，以更好地适应语音增强任务。
使用干净语音与增强语音对之间的L1损失对模型进行预训练，以学习语音重建。
通过MetricGAN框架对预训练模型进行微调，该框架优化PESQ等客观质量指标。
MetricGAN作为后处理模块，用于优化Transformer的输出，以最大化期望的客观评分。
采用对抗性学习方式端到端训练该框架，其中判别器基于客观评分质量来区分真实语音与增强语音。
在DNS挑战赛数据集上进行实验，以验证在多个评估指标下的性能表现。

实验结果

研究问题

RQ1用卷积层替代位置编码是否能提升Transformer在语音增强任务中的性能？
RQ2当作为预训练Transformer的后处理器应用时，MetricGAN框架在提升PESQ得分方面能达到多大程度的改善？
RQ3所提出方法是否在客观和主观语音质量方面均优于DNS挑战赛基线？
RQ4MetricGAN后处理模块是否可泛化至提升PESQ以外的其他客观评分？

主要发现

所提出方法在客观和主观评估中均显著优于DNS挑战赛基线。
用卷积层替代位置编码可提升模型在语音增强任务中的性能。
通过MetricGAN对预训练Transformer进行微调，可显著提升PESQ得分。
MetricGAN后处理模块在无需重新训练主模型的情况下，有效提升了客观评分。
该系统相较于基线实现了显著的性能提升，证明了所提出框架的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。