QUICK REVIEW

[论文解读] End-to-End Multi-Task Denoising for joint SDR and PESQ Optimization

Jaeyoung Kim, Mostafa El‐Khamy|arXiv (Cornell University)|Jan 26, 2019

Speech and Audio Processing参考文献 25被引用 24

一句话总结

本文提出一种端到端多任务去噪框架，通过在ISTFT后对时域信号进行训练，避免频谱不匹配问题，联合优化SDR和PESQ的语音增强性能。该方法引入新颖的SDR和PESQ损失函数，直接针对这些感知度量进行优化，显著优于传统基于频谱的方法和生成模型。

ABSTRACT

Supervised learning based on a deep neural network recently has achieved substantial improvement on speech enhancement. Denoising networks learn mapping from noisy speech to clean one directly, or to a spectrum mask which is the ratio between clean and noisy spectra. In either case, the network is optimized by minimizing mean square error (MSE) between ground-truth labels and time-domain or spectrum output. However, existing schemes have either of two critical issues: spectrum and metric mismatches. The spectrum mismatch is a well known issue that any spectrum modification after short-time Fourier transform (STFT), in general, cannot be fully recovered after inverse short-time Fourier transform (ISTFT). The metric mismatch is that a conventional MSE metric is sub-optimal to maximize our target metrics, signal-to-distortion ratio (SDR) and perceptual evaluation of speech quality (PESQ). This paper presents a new end-to-end denoising framework with the goal of joint SDR and PESQ optimization. First, the network optimization is performed on the time-domain signals after ISTFT to avoid spectrum mismatch. Second, two loss functions which have improved correlations with SDR and PESQ metrics are proposed to minimize metric mismatch. The experimental result showed that the proposed denoising scheme significantly improved both SDR and PESQ performance over the existing methods.

研究动机与目标

解决语音增强中的频谱不匹配问题，即基于STFT的修改在ISTFT后无法完美恢复。
通过用SDR和PESQ损失函数替代MSE损失，克服度量不匹配问题，使损失更符合感知语音质量指标。
构建时域优化框架，在ISTFT重建后信号上进行训练，确保训练与评估之间的一致性。
联合优化SDR和PESQ，以提升整体语音质量和可懂度。
在标准基准上展示优于现有监督模型和生成模型的性能。

提出的方法

在掩码预测后通过ISTFT重建的时域信号上训练去噪网络，避免频谱不匹配。
定义一种尺度不变的SDR损失函数，体现SDR度量对幅度缩放的鲁棒性。
通过近似对称与非对称干扰，将PESQ度量重构为可微损失，以支持优化。
将SDR与PESQ损失结合为多任务学习目标，联合优化两项指标。
采用两阶段STFT流程：第一阶段用于掩码估计，第二阶段在重建的时域信号上计算PESQ损失。
训练期间应用迭代Griffin-Lim以优化相位估计，但单次迭代在单源去噪中表现最优。

实验结果

研究问题

RQ1在ISTFT后时域信号上进行训练，能否消除基于STFT的语音增强中的频谱不匹配？
RQ2SDR和PESQ能否在端到端训练中有效用作可微损失函数用于语音增强？
RQ3联合优化SDR和PESQ是否优于仅优化MSE或单一指标？
RQ4与生成模型（如GAN）相比，基于损失的训练在客观语音质量指标上的表现如何？
RQ5在单源去噪设置下，Griffin-Lim的最优迭代次数是多少？

主要发现

所提出的SDR-PESQ联合损失函数在VoiceBank-DEMAND语料库上达到3.01的PESQ分数，优于所有对比的生成模型，包括SEGAN、TF-GAN和DCUnet-20。
该方法在同一语料库上实现了10.44 dB的SDR，显著优于次优方法（DCUnet-20为9.96 dB），并大幅超越基于MSE的基线模型。
PESQ损失函数起到了有效的正则化作用，其泛化能力优于L1或L2正则化，尤其在未见数据上表现更优。
迭代Griffin-Lim在单次迭代后性能不再提升，单步重建在SDR（12.59 dB）和PESQ（1.953）上均取得最佳表现。
联合SDR-PESQ损失优于加权SDR损失基线（WSDR），尤其在PESQ和SSNR指标上表现更优，证实了多任务度量优化的优势。
该框架在客观指标和主观质量度量（CSIG、CBAK、COVL）上均达到最先进水平，展现出优异的鲁棒性与泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。