QUICK REVIEW

[论文解读] Multi-Objective Learning and Mask-Based Post-Processing for Deep Neural Network Based Speech Enhancement

Yong Xu, Jun Du|arXiv (Cornell University)|Mar 21, 2017

Speech and Audio Processing参考文献 29被引用 32

一句话总结

本文提出了一种用于语音增强的多目标深度学习框架，通过联合优化干净的对数功率谱（LPS）、梅尔频率倒谱系数（MFCC）和理想二值掩码（IBM），以提升语音质量。通过将辅助目标整合到损失函数中，模型实现了更优的LPS估计，并支持基于IBM的后处理，从而在信噪比（SNR）较低时实现1.5 dB的SSNR增益，并提升了PESQ/STOI评分。

ABSTRACT

We propose a multi-objective framework to learn both secondary targets not directly related to the intended task of speech enhancement (SE) and the primary target of the clean log-power spectra (LPS) features to be used directly for constructing the enhanced speech signals. In deep neural network (DNN) based SE we introduce an auxiliary structure to learn secondary continuous features, such as mel-frequency cepstral coefficients (MFCCs), and categorical information, such as the ideal binary mask (IBM), and integrate it into the original DNN architecture for joint optimization of all the parameters. This joint estimation scheme imposes additional constraints not available in the direct prediction of LPS, and potentially improves the learning of the primary target. Furthermore, the learned secondary information as a byproduct can be used for other purposes, e.g., the IBM-based post-processing in this work. A series of experiments show that joint LPS and MFCC learning improves the SE performance, and IBM-based post-processing further enhances listening quality of the reconstructed speech.

研究动机与目标

通过在仅预测干净LPS的基础上引入额外的辅助目标，提升基于深度神经网络（DNN）的语音增强性能。
解决传统DNN仅对LPS的均方误差进行优化所导致的语音失真或过估计/欠估计问题。
探究辅助连续目标（MFCC）与分类目标（IBM）是否能提升主要LPS估计的准确性并增强主观感知质量。
评估基于IBM的后处理在降低语音失真（尤其在高SNR区域）方面的有效性。
证明联合学习LPS、MFCC与IBM可带来更优的客观与主观语音质量指标。

提出的方法

采用多目标损失函数，联合优化LPS预测误差、MFCC预测误差与IBM分类误差，以联合调整DNN参数。
在DNN架构中增加用于MFCC与IBM的辅助输出头，实现共享特征表示的端到端训练。
IBM通过干净谱与含噪谱计算得出，表示为指示语音或噪声主导的时间-频率单元的二值掩码。
后处理阶段将预测的IBM应用于DNN估计的LPS，以优化谱估计并减少过估计或欠估计。
通过全局均值与方差对输入和输出特征进行归一化，提升训练稳定性与泛化能力。
使用均方误差（MSE）处理LPS与MFCC，交叉熵处理IBM，通过超参数加权组合进行联合训练。

实验结果

研究问题

RQ1联合学习MFCC与IBM是否能提升基于DNN的语音增强中LPS估计的准确性？
RQ2在训练目标中引入分类信息（IBM）是否能提升泛化能力并减少语音失真？
RQ3与直接使用DNN输出相比，基于IBM的后处理在SSNR与PESQ等客观指标上的提升程度如何？
RQ4联合辅助目标（MFCC + IBM）与单一或基线DNN方法相比，在语音质量与可懂度方面表现如何？
RQ5该多目标方法在不同噪声环境与SNR水平下是否具备鲁棒性？

主要发现

在SNR=0 dB时，LPS与IBM的联合预测使SSNR从-0.084 dB提升至0.251 dB，显著优于基线DNN模型。
仅使用IBM后处理在SNR=20 dB时使SSNR提升3.814 dB，表明对残留噪声具有强抑制能力并减少语音失真。
MFCC+IBM+后处理（PP）系统在SNR=0 dB时平均SSNR达5.194 dB，较基线的3.664 dB显著提升，表明多目标学习与后处理具有叠加增益。
在SNR=-5 dB时PESQ提升0.626分，所有SNR下STOI提升0.03，表明主观质量与可懂度显著改善。
所提出的MFCC+IBM+PP系统在所有SNR水平下均优于LogMMSE，尤其在低SNR下表现更优，STOI提升0.163，PESQ提升0.626。
时频图可视化结果表明，噪声减少更彻底，辅音区域的语音失真更少，尤其在高SNR区域，验证了IBM后处理的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。