QUICK REVIEW

[论文解读] Monaural Speech Enhancement using Deep Neural Networks by Maximizing a Short-Time Objective Intelligibility Measure

Morten Kolbæk, Zheng‐Hua Tan|arXiv (Cornell University)|Feb 2, 2018

Speech and Audio Processing参考文献 26被引用 26

一句话总结

本文提出一种基于深度神经网络（DNN）的单通道语音增强系统，通过最大化短时客观可懂度（STOI）度量的近似值，直接优化语音可懂度。该方法推导出适用于端到端DNN训练的解析梯度，并表明经STOI优化的DNN在可懂度方面显著优于基于MSE的基线模型，且在性能上与经典的基于DNN的短时谱幅（STSA）系统相当，提示STSA-DNN可能在可懂度方面已接近最优。

ABSTRACT

In this paper we propose a Deep Neural Network (DNN) based Speech Enhancement (SE) system that is designed to maximize an approximation of the Short-Time Objective Intelligibility (STOI) measure. We formalize an approximate-STOI cost function and derive analytical expressions for the gradients required for DNN training and show that these gradients have desirable properties when used together with gradient based optimization techniques. We show through simulation experiments that the proposed SE system achieves large improvements in estimated speech intelligibility, when tested on matched and unmatched natural noise types, at multiple signal-to-noise ratios. Furthermore, we show that the SE system, when trained using an approximate-STOI cost function performs on par with a system trained with a mean square error cost applied to short-time temporal envelopes. Finally, we show that the proposed SE system performs on par with a traditional DNN based Short-Time Spectral Amplitude (STSA) SE system in terms of estimated speech intelligibility. These results are important because they suggest that traditional DNN based STSA SE systems might be optimal in terms of estimated speech intelligibility.

研究动机与目标

开发一种基于DNN的语音增强系统，通过使用客观可懂度度量直接优化语音可懂度。
形式化一种适用于端到端DNN训练且具备解析梯度的近似STOI损失函数。
评估STOI优化的DNN是否在语音可懂度方面优于传统的基于MSE的DNN。
将STOI优化的DNN与经典的基于DNN的短时谱幅（STSA）系统在性能上进行比较。
探究直接优化STOI是否能带来相对于传统基于MSE的训练方法的显著性能提升。

提出的方法

该方法基于STFT域中三分之一倍频程带的短时时间包络，构建近似STOI损失函数。
推导出近似STOI损失函数的解析梯度，用于基于反向传播的DNN训练。
DNN架构以30个STFT帧作为输入，对重叠帧估计增益，通过平均输出增益以重构增强信号。
系统使用随机梯度下降法，结合推导出的梯度，以最大化类似STOI的目标函数进行训练。
该方法在STFT域中运行，使用幅度谱，并对含噪输入应用增益函数以估计干净语音。
性能通过多种噪声类型和信噪比（SNR）下的STOI和ELC（扩展长期相干性）得分进行评估。

实验结果

研究问题

RQ1基于DNN的语音增强系统若以最大化近似STOI度量为目标进行训练，是否能在语音可懂度方面优于基于MSE的基线模型？
RQ2为近似STOI损失函数推导出的解析梯度是否能带来稳定且有效的训练？
RQ3STOI优化的DNN在可懂度方面的性能与经典的基于DNN的STSA系统相比如何？
RQ4在匹配与不匹配噪声条件下，STOI优化与MSE优化的DNN之间是否存在显著的性能差距？
RQ5直接优化STOI是否能在语音可懂度方面带来相对于传统基于MSE的训练方法的可测量性能提升？

主要发现

所提出的STOI优化DNN系统在匹配与不匹配噪声类型下均显著提升了估计的语音可懂度（STOI），平均提升0.07–0.13 STOI点。
采用近似STOI损失函数训练的系统在短时时间包络上的均方误差（MSE）损失上表现相当，未显示出STOI优化的显著优势。
STOI优化的DNN在性能上与经典的基于DNN的STSA系统相当，在BBL噪声下于-5 dB SNR时达到最大STOI 0.66，于5 dB SNR时达到0.92。
STOI优化与MSE优化系统之间的增益向量具有高度相关性（r > 0.90），表明其增强行为相似。
结果表明，传统的基于DNN的STSA系统在估计语音可懂度方面可能已接近最优。
直接优化STOI相对于基于MSE的训练未观察到显著性能提升，提示当前基于DNN的语音增强框架在可懂度增益方面可能存在饱和。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。