Skip to main content
QUICK REVIEW

[论文解读] The Cone of Silence: Speech Separation by Localization

Teerapat Jenrungrot, Vivek Jayaram|arXiv (Cornell University)|Oct 12, 2020
Speech and Audio Processing参考文献 63被引用 25
一句话总结

该论文提出了一种基于波形域神经网络的深度学习方法,用于同时进行语音分离与定位,通过在方向性角度窗口内隔离音频,实现对任意数量说话人的对数时间二分查找,即使在测试时遇到的说话人数量超过训练时的数量也能有效处理,在嘈杂环境中实现了最先进性能。

ABSTRACT

Given a multi-microphone recording of an unknown number of speakers talking concurrently, we simultaneously localize the sources and separate the individual speakers. At the core of our method is a deep network, in the waveform domain, which isolates sources within an angular region $θ\pm w/2$, given an angle of interest $θ$ and angular window size $w$. By exponentially decreasing $w$, we can perform a binary search to localize and separate all sources in logarithmic time. Our algorithm allows for an arbitrary number of potentially moving speakers at test time, including more speakers than seen during training. Experiments demonstrate state-of-the-art performance for both source separation and source localization, particularly in high levels of background noise.

研究动机与目标

  • 解决在噪声环境和真实世界场景中同时定位和分离多个说话人的挑战,且说话人数量未知。
  • 开发一种在测试时可泛化到比训练时更多说话人的方法。
  • 实现实时、软件可配置的方向性音频滤波(即“静音圆锥”),用于多麦克风系统中的选择性听音。
  • 通过允许动态、即时调整方向,克服传统波束成形和固定方向方法的局限性。
  • 在高噪声条件下表现出鲁棒性,并通过自适应窗口技术支持移动说话人。

提出的方法

  • 训练一个深度神经网络,使其在指定的角窗 θ ± w/2 内分离语音源,其中 θ 为关注方向,w 为窗口宽度。
  • 网络直接在原始波形上运行,保留了精细的时间和频谱细节,从而提升分离性能。
  • 通过指数减小角窗宽度 w,实现二分查找策略,从而在对数时间内定位并分离所有源。
  • 采用预偏移技术处理麦克风阵列对称性问题,并在推理时支持任意数量的源。
  • 对于移动说话人,算法使用短时输入(1.5 秒)和较宽的窗口尺寸(例如 23°),并通过相邻区域之间的关联实现源的追踪。
  • 在真实麦克风阵列数据上进行微调,以提升对真实声学环境和噪声的鲁棒性。

实验结果

研究问题

  • RQ1能否训练一个深度神经网络,在波形域中对用户指定的角窗内语音源进行隔离?
  • RQ2能否通过角窗上的二分查找实现高效、对数时间复杂度的多说话人定位与分离?
  • RQ3该方法能否在测试时泛化到任意数量的说话人,包括训练数据中未见的数量?
  • RQ4该方法在高噪声环境和移动说话人情况下的表现如何?
  • RQ5该方法能否在无需完美真实标注对齐的情况下适配真实麦克风阵列?

主要发现

  • 该方法在 2 名说话人时达到 13.9 dB 的 SI-SDRi 最先进得分,在 8 名说话人时达到 6.3 dB,即使在高源数量下也表现出强劲性能。
  • 平均角误差从 2 名说话人时的 2.0° 增加到 8 名说话人时的 6.3°,表明源数量与定位精度之间存在权衡。
  • 精确度保持较高水平(8 名说话人时为 0.966),召回率高于 0.78,表明检测与定位具有高度可靠性。
  • 通过使用短时输入和区域关联,系统成功实现了对移动说话人的分离与定位,例如在桌子周围走动的人。
  • 在真实麦克风数据上进行微调显著提升了鲁棒性,使系统能在真实设备(如 ReSpeaker Mic Array v2.0)上有效运行。
  • 该方法可泛化到未见过的说话人数量,并通过仅关注角窗内的语音源,有效处理非语音声音(如音乐、环境噪声)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。