Skip to main content
QUICK REVIEW

[论文解读] Multi-Domain Processing via Hybrid Denoising Networks for Speech Enhancement

Jang-Hyun Kim, Jaejun Yoo|arXiv (Cornell University)|Dec 21, 2018
Speech and Audio Processing参考文献 10被引用 29
一句话总结

该论文提出MDPhD,一种混合语音增强框架,通过级联的多路径架构与辅助损失,联合利用原始音频(时域)和频谱图(时频域)表示。通过结合TasNet(时间精度优势)与U-Net(频率分辨率优势)的优点,MDPhD在多种噪声类型下实现最先进性能,尤其在混合噪声场景中表现卓越,优于单一模型及先前最先进方法,在PESQ、SSNR和主观质量评分等多项指标上表现更优。

ABSTRACT

We present a hybrid framework that leverages the trade-off between temporal and frequency precision in audio representations to improve the performance of speech enhancement task. We first show that conventional approaches using specific representations such as raw-audio and spectrograms are each effective at targeting different types of noise. By integrating both approaches, our model can learn multi-scale and multi-domain features, effectively removing noise existing on different regions on the time-frequency space in a complementary way. Experimental results show that the proposed hybrid model yields better performance and robustness than using each model individually.

研究动机与目标

  • 解决现有语音增强模型依赖单一音频表示(原始音频或频谱图)的局限性,这些表示仅在特定噪声类型下表现优异。
  • 探究结合时域与时频域表示是否能实现互补的多尺度特征学习,从而提升鲁棒性与性能。
  • 开发一种可泛化的混合框架,通过级联多路径训练策略与辅助监督,整合两种表示。
  • 证明该混合模型在多项客观与主观指标上均优于单一模型与最先进基线方法。

提出的方法

  • 模型采用混合架构,包含两条并行路径:一条基于TasNet(一维空洞卷积)处理原始音频,另一条基于U-Net(二维卷积)处理频谱图。
  • 两条路径以级联方式连接,并在每条路径的中间输出处应用辅助损失,以确保贡献均衡。
  • 通过交替切换两条路径的处理顺序(U→D 与 D→U)进行训练,使每条路径在另一条处理前均能访问完整输入信息。
  • 推理阶段,将两条路径的输出进行平均,生成最终的去噪波形。
  • 目标函数结合了语音与估计噪声的L1损失:L = ||s - ŝ||₁ + ||n - ŝ̂||₁,其中 ŝ̂ = x - ŝ。
  • 时频表示通过STFT获得,最终波形通过iSTFT重建。

实验结果

研究问题

  • RQ1仅使用单一音频表示(原始音频或频谱图)是否会限制模型在多样化噪声类型下的泛化能力?
  • RQ2结合时域与时频域表示是否能实现互补的特征学习并提升去噪性能?
  • RQ3处理路径的顺序如何影响模型性能?交替训练是否能缓解信息丢失?
  • RQ4该混合框架是否在多项客观与主观指标上均优于最先进模型?

主要发现

  • MDPhD在测试集上取得最高的PESQ得分2.70与SSNR 10.22 dB,优于所有基线模型,包括TasNet (3M) 与 U-Net (3M)。
  • 在混合嘶嘶声与高频噪声(SNR 5 dB)场景下,MDPhD的PESQ为2.70,SSNR为10.22 dB,显著优于次佳模型MMSE-GAN(PESQ高0.17,SSNR高0.58)。
  • 该混合模型在CSIG、CBAK与COVL指标上分别取得3.85、3.39与3.27的得分,均为所有测试方法中的最高值。
  • 原始音频模型(TasNet)在嘶嘶声噪声下表现最佳(10 dB SNR时SNR为16.83 dB),而频谱图模型(U-Net)在高频噪声下表现更优(SNR为20.68 dB),证实了领域专业化特性。
  • 当仅在单条路径上训练(如U→D或D→U)时,模型性能与第一条路径的特性一致,表明第二条路径存在信息损失。
  • 消融实验证实,两种表示的互补性并非依赖于损失函数的选择,而是源于架构层面的整合。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。