Skip to main content
QUICK REVIEW

[论文解读] DNN-based mask estimation for distributed speech enhancement in spatially unconstrained microphone arrays

Nicolas Furnon, Romain Serizel|arXiv (Cornell University)|Nov 3, 2020
Speech and Audio Processing参考文献 54被引用 27
一句话总结

本文提出了一种用于空间无约束麦克风阵列的分布式DNN语音增强方法,利用包含目标和噪声估计的压缩信号实现节点间协作。在使用理想VAD时,该方法实现了与DANSE相当的性能;并且结果表明,输入SIR较差的节点从空间协作中获益最多,验证了共享目标和噪声估计可有效提升系统鲁棒性与性能。

ABSTRACT

Deep neural network (DNN)-based speech enhancement algorithms in microphone arrays have now proven to be efficient solutions to speech understanding and speech recognition in noisy environments. However, in the context of ad-hoc microphone arrays, many challenges remain and raise the need for distributed processing. In this paper, we propose to extend a previously introduced distributed DNN-based time-frequency mask estimation scheme that can efficiently use spatial information in form of so-called compressed signals which are pre-filtered target estimations. We study the performance of this algorithm under realistic acoustic conditions and investigate practical aspects of its optimal application. We show that the nodes in the microphone array cooperate by taking profit of their spatial coverage in the room. We also propose to use the compressed signals not only to convey the target estimation but also the noise estimation in order to exploit the acoustic diversity recorded throughout the microphone array.

研究动机与目标

  • 通过实现分布式处理,解决集中式语音增强在自组织、空间无约束麦克风阵列中的局限性。
  • 克服传统多通道波束成形器(如MVDR和MWF)在真实无线声学传感器网络(WASNs)中对带宽和融合中心的依赖。
  • 通过使节点协作共享携带目标和噪声估计的压缩信号,提升语音增强性能。
  • 研究在DNN掩码估计和整体系统性能中,传输目标估计与噪声估计的相对影响。
  • 在真实声学环境下验证该方法对训练-测试分布不匹配的鲁棒性。

提出的方法

  • 提出一种分布式DNN-based时频掩码估计框架,其中每个节点计算压缩信号(预滤波的目标估计)并与其他节点共享。
  • 不仅利用压缩信号进行目标估计,还用于传递噪声估计,以利用阵列间的声学生理多样性。
  • 在每个节点应用多通道DNN,利用其他节点的压缩信号估计理想比掩码(IRM),实现空间协作。
  • 集成两阶段滤波过程:第一阶段为使用本地信号的单节点处理;第二阶段为使用共享压缩信号的协作处理。
  • 利用广义特征值分解(GEVD)进行波束成形器设计,并采用STFT域处理以建模时频表示。
  • 使用目标和噪声估计的组合作为输入特征训练DNN,通过最小化掩码预测的均方误差(MSE)来优化损失函数。

实验结果

研究问题

  • RQ1在空间无约束麦克风阵列中,所提出的分布式DNN掩码估计方法与使用理想VAD的集中式DANSE相比,性能如何?
  • RQ2与仅传输目标估计相比,通过压缩信号同时传输目标和噪声估计的相对优势是什么?
  • RQ3哪些节点从空间协作中受益最多?输入信号质量(如SIR)如何影响性能增益?
  • RQ4该DNN方法在真实声学环境中对训练与测试条件不匹配的鲁棒性如何?
  • RQ5所提方法是否能在无需融合中心或时钟同步的情况下,实现与最先进集中式解决方案相当的性能?

主要发现

  • 所提方法在分布式设置下实现了与使用理想VAD的集中式DANSE相当的语音增强性能,验证了其有效性。
  • 输入SIR最低(低至1 dB)的节点从空间协作中受益最多,其输出SIR在信息共享后显著提升。
  • 在压缩信号中同时传输目标和噪声估计不会降低性能,可能带来优势,但与仅传输目标估计相比,其增益在统计上不显著。
  • 第二阶段滤波后(S2)的最佳输出节点的SIR_cn_v达到23.9 dB,显著高于最佳输入节点(S1 bi: 20.5 dB),表明存在显著的协作增益。
  • 最佳输出节点的SAR_cn_v达到8.3 dB,表明通过多节点协作估计,源干扰比得到显著改善。
  • 第一阶段与第二阶段滤波之间的性能差距在最佳输出节点处最为明显,证实多节点DNN最受益于来自最佳输入节点的高质量压缩信号。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。