QUICK REVIEW

[论文解读] Towards Intelligibility-Oriented Audio-Visual Speech Enhancement

Tassadaq Hussain, Mandar Gogate|arXiv (Cornell University)|Nov 18, 2021

Speech and Audio Processing被引用 7

一句话总结

本文提出了一种新颖的音视频（AV）语音增强框架，采用改进的短时客观可懂度（STOI）度量作为损失函数，以优化深度学习模型，提升语音可懂度。通过在频域幅度谱上联合使用音频-视频输入，训练全卷积神经网络（FCN），该方法在未见说话人和噪声类型的不匹配测试条件下，显著优于传统的基于距离的损失函数（MSE、MAE）以及当前最先进的纯音频STOI基模型。

ABSTRACT

Existing deep learning (DL) based speech enhancement approaches are generally optimised to minimise the distance between clean and enhanced speech features. These often result in improved speech quality however they suffer from a lack of generalisation and may not deliver the required speech intelligibility in real noisy situations. In an attempt to address these challenges, researchers have explored intelligibility-oriented (I-O) loss functions and integration of audio-visual (AV) information for more robust speech enhancement (SE). In this paper, we introduce DL based I-O SE algorithms exploiting AV information, which is a novel and previously unexplored research direction. Specifically, we present a fully convolutional AV SE model that uses a modified short-time objective intelligibility (STOI) metric as a training cost function. To the best of our knowledge, this is the first work that exploits the integration of AV modalities with an I-O based loss function for SE. Comparative experimental results demonstrate that our proposed I-O AV SE framework outperforms audio-only (AO) and AV models trained with conventional distance-based loss functions, in terms of standard objective evaluation measures when dealing with unseen speakers and noises.

研究动机与目标

解决现有基于深度学习的语音增强（SE）系统优化语音质量而非可懂度的局限性。
探究在真实嘈杂环境中，将视觉信息与面向可懂度（I-O）的损失函数结合，是否能提升SE性能。
开发并验证一种基于频域的新型音视频深度学习框架，采用改进的STOI度量作为训练目标。
在纯音频与音视频SE设置下，对比面向可懂度的损失函数（STOI）与传统基于距离的损失函数（MSE、MAE）的性能。
使用标准化客观指标，评估所提模型在未见说话人和噪声类型上的泛化能力。

提出的方法

提出一种基于U-Net架构的全卷积神经网络（FCN），用于在频域中学习从含噪语音到干净语音的谱映射。
通过早期融合（即拼接）和3D卷积层，将音频特征（频谱图）与视觉特征（视频中的面部关键点序列）联合整合。
对传统STOI度量进行改进，使其可直接作用于16kHz频域幅度谱，避免时间域下采样和静音段移除的预处理步骤。
将改进的STOI作为主要损失函数（LSTOI）用于训练AV模型，旨在使训练目标与人类语音可懂度感知保持一致。
在相同条件下，将所提出的基于STOI的AV模型与基于MSE和MAE损失函数训练的纯音频（AO）及AV模型进行对比。
采用双说话人合成的GRID语料库混合数据，结合随机信噪比（SNR），以模拟真实场景中的噪声环境，用于训练与评估。

实验结果

研究问题

RQ1在音视频设置下，与传统的基于距离的损失函数（MSE、MAE）相比，面向可懂度的损失函数（改进的STOI）是否能提升语音增强性能？
RQ2将视觉信息与I-O损失函数结合，是否能提升模型在未见说话人和噪声类型上的泛化能力？
RQ3当直接应用于频域幅度谱而无需时间域预处理时，改进的STOI度量作为训练目标的性能如何？
RQ4所提出的AV SE框架在客观可懂度与质量指标方面，相较于当前最先进的纯音频与AV SE系统，优势有多大？
RQ5当与视觉模态信息结合时，使用STOI作为损失函数带来的性能增益是否更加显著？

主要发现

所提出的基于STOI的AV SE模型取得了最高的STOI分数0.914，显著优于次优方法（基于MAE的AV模型：0.887）以及所有纯音频基线模型。
该模型在PESQ评分上达到3.206，SI-SDR为12.403，两项指标均为所有评估框架中的最高值，表明其在语音质量与噪声抑制方面表现卓越。
STOI基AV模型将VISQOL评分提升至4.270，表明其在感知质量与自然度方面优于其他方法。
频谱图分析表明，与MSE和MAE基模型相比，STOI基AV模型在低、中、高频段均恢复了更多语音成分，尤其在噪声区域表现更优。
尽管在多数指标上表现优异，STOI基AV模型在CSIG、CBAK和COVL指标上略逊于MAE基AV模型，表明在感知质量的不同维度上可能存在权衡。
改进的STOI度量与原始STOI及扩展STOI度量具有极强相关性（r > 0.95），验证了其作为频域AV SE训练目标的可靠性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。