Skip to main content
QUICK REVIEW

[论文解读] End-to-End Multi-Channel Speech Separation

Rongzhi Gu, Jian Wu|arXiv (Cornell University)|May 15, 2019
Speech and Audio Processing参考文献 23被引用 80
一句话总结

本文提出一种端到端的时域多通道语音分离模型,通过将 STFT/IPD 重构为时域卷积核并使其可学习,从数据中直接学习空间特征。

ABSTRACT

The end-to-end approach for single-channel speech separation has been studied recently and shown promising results. This paper extended the previous approach and proposed a new end-to-end model for multi-channel speech separation. The primary contributions of this work include 1) an integrated waveform-in waveform-out separation system in a single neural network architecture. 2) We reformulate the traditional short time Fourier transform (STFT) and inter-channel phase difference (IPD) as a function of time-domain convolution with a special kernel. 3) We further relaxed those fixed kernels to be learnable, so that the entire architecture becomes purely data-driven and can be trained from end-to-end. We demonstrate on the WSJ0 far-field speech separation task that, with the benefit of learnable spatial features, our proposed end-to-end multi-channel model significantly improved the performance of previous end-to-end single-channel method and traditional multi-channel methods.

研究动机与目标

  • 在远场场景中解决混响和空间线索的挑战,提出端到端的多通道语音分离。
  • 在单一神经网络中整合波形输入与波形输出处理。
  • 将 STFT 和 IPD 重构为可学习的时域卷积,以实现端到端训练。
  • 在 WSJ0 远场数据上展示相较于以往的端到端单通道方法和传统多通道方法的性能提升。

提出的方法

  • 将 TasNet 风格的时域分离扩展到多通道输入。
  • 通过跨域学习在早期、中期或晚期融合方案中引入频域空间特征(IPD)。
  • 将 STFT 和 IPD 重构为具有可学习核的卷积,使从时域信号端实现 IPD 的端到端学习成为可能。
  • 以端到端方式使用 SI-SNR 损失训练整个系统。
  • 评估若干基线和对手架构,包括跨域训练、并行编码器,以及带有可学习核的端到端分离。

实验结果

研究问题

  • RQ1一个端到端的时域多通道分离系统是否能够在远场数据上超越传统多通道谱方法和单通道端到端模型?
  • RQ2在单一网络中学习的时域 IPD 计算是否能提高空间分离性能?
  • RQ3不同融合策略(早期、中期、晚期)在整合时域和频域空间特征方面的影响如何?
  • RQ4在 WSJ0 2-mix 具有混响的数据上,端到端模型与跨域和级联方法相比如何?

主要发现

  • 采用可训练 IPD 核和 cosIPD/sinIPD 特征的端到端多通道分离在 WSJ0 远场数据上实现了强烈的 SI-SNR 提升。
  • 使用 LPS 和 IPD 特征的跨域训练在性能上优于单通道 TasNet 以及某些频域基线。
  • 固定的 STFT 类核提供了强健的初始 IPD 表征,而可学习核(尤其是含 sinIPD 时)在所测试的配置中能获得最佳性能。
  • 在所报道的设置中,所提出的端到端方法超越理想时频掩蔽(IBM/IRM/IPSM)。
  • 并行编码器和融合策略在通道间角差较大 的样本中进一步提升了性能。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。