QUICK REVIEW

[论文解读] Listening to Sounds of Silence for Speech Denoising

Ruilin Xu, Rundi Wu|arXiv (Cornell University)|Oct 22, 2020

Speech and Audio Processing参考文献 102被引用 23

一句话总结

本文提出了一种深度学习模型用于语音去噪，利用语音中自然存在的静音间隔（词或句之间的停顿）从单通道音频中学习时变噪声特性。通过检测这些静音段，模型估计动态噪声特征并从含噪语音中抑制噪声，在多个数据集上实现最先进性能，对未见语言和真实世界录音具有强大泛化能力，噪声抑制最高达33.34 dB。

ABSTRACT

We introduce a deep learning model for speech denoising, a long-standing challenge in audio analysis arising in numerous applications. Our approach is based on a key observation about human speech: there is often a short pause between each sentence or word. In a recorded speech signal, those pauses introduce a series of time periods during which only noise is present. We leverage these incidental silent intervals to learn a model for automatic speech denoising given only mono-channel audio. Detected silent intervals over time expose not just pure noise but its time-varying features, allowing the model to learn noise dynamics and suppress it from the speech signal. Experiments on multiple datasets confirm the pivotal role of silent interval detection for speech denoising, and our method outperforms several state-of-the-art denoising methods, including those that accept only audio input (like ours) and those that denoise based on audiovisual input (and hence require more information). We also show that our method enjoys excellent generalization properties, such as denoising spoken languages not seen during training.

研究动机与目标

解决仅使用单通道音频在嘈杂环境中进行语音去噪的长期挑战。
克服传统方法（如谱减法）的局限性，后者需要手动选择静音间隔，且在非平稳噪声下表现不佳。
开发一种完全自动化的端到端深度学习模型，利用自然语音停顿进行噪声估计与抑制。
在无需音频视觉输入的情况下，提升对未见语言和真实世界音频场景的泛化能力。
证明静音间隔检测在有效语音去噪中的关键作用，甚至优于使用视频输入的方法。

提出的方法

该模型由三个组件构成：一个静音间隔检测头，用于识别语音信号中的停顿。
一个噪声估计头，利用检测到的静音间隔推断时变噪声特征，作为噪声特征图的修复（inpainting）过程。
一个去噪头，将估计的噪声应用于输入语音信号以最小化残留噪声。
该方法依赖于通过静音间隔实现的自监督学习，训练过程中无需干净语音参考。
模型在原始单通道音频上端到端训练，无需成对的干净-含噪数据或视频输入。
静音间隔检测的优化目标是尽量减少误报，因为误报会严重损害去噪性能，导致噪声估计被语音成分污染。

实验结果

研究问题

RQ1语音中自然存在的静音间隔能否被有效利用以学习时变噪声特性，实现语音去噪？
RQ2使用静音间隔的深度学习模型是否优于最先进的纯音频和音视频去噪方法？
RQ3该模型在未见语言和训练期间未见过的真实世界音频记录上的泛化能力如何？
RQ4去噪性能对静音间隔检测错误的敏感程度如何，特别是误报与漏报相比？
RQ5在合成数据或有限数据上训练的模型能否有效泛化到多样化的真实世界噪声环境？

主要发现

在使用其自身 AVSPEECH+Audioset 数据集训练的情况下，该模型在 VoiceBank-DEMAND 测试集上达到 3.16 的 PESQ 分数，优于在相同数据集上微调的基线模型。
在跨数据集泛化方面，模型仅表现出轻微性能下降——例如，当在 AD 上训练并在 AA 上测试时，PESQ 从 2.30 降至 2.12，显示出强大的泛化能力。
在真实世界录音中，使用作者团队的 AVSPEECH+Audioset 数据集训练的模型实现了平均 22.27 dB 的噪声抑制，显著优于在 VoiceBank-DEMAND 上训练的模型（12.60 dB）。
在一段西班牙语歌曲片段中，该模型实现了高达 33.34 dB 的噪声抑制，表明其在复杂、非平稳噪声环境中的高度有效性。
静音间隔检测中的误报导致去噪质量下降比漏报更严重，凸显了噪声估计对语音成分污染的高度敏感性。
无论在何种评估指标下（包括 PESQ、STOI、CSIG、CBAK 和 COVL），该方法均优于所有纯音频和音视频最先进方法，即使在强噪声条件下也表现优异。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。