Skip to main content
QUICK REVIEW

[论文解读] SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition

Lukas Drude, Jens Heitkaemper|arXiv (Cornell University)|Oct 30, 2019
Speech and Audio Processing参考文献 29被引用 58
一句话总结

SMS-WSJ 引入一个基于多通道的大型模拟 WSJ 数据库,具有随机房间几何和完整的多说话人源分离与识别基线,包括指标讨论和 Kaldi/TDNN-F 基线。

ABSTRACT

We present a multi-channel database of overlapping speech for training, evaluation, and detailed analysis of source separation and extraction algorithms: SMS-WSJ -- Spatialized Multi-Speaker Wall Street Journal. It consists of artificially mixed speech taken from the WSJ database, but unlike earlier databases we consider all WSJ0+1 utterances and take care of strictly separating the speaker sets present in the training, validation and test sets. When spatializing the data we ensure a high degree of randomness w.r.t. room size, array center and rotation, as well as speaker position. Furthermore, this paper offers a critical assessment of recently proposed measures of source separation performance. Alongside the code to generate the database we provide a source separation baseline and a Kaldi recipe with competitive word error rates to provide common ground for evaluation.

研究动机与目标

  • 展示一个基于 WSJ 发声单元、具有随机几何配置的多通道重叠语音数据库,以实现可控的真实感。
  • 批判性评估多通道源分离与识别的性能度量。
  • 提供一个基线 BSS 流程和一个 ASR 方案,以实现公平比较和可重复性。

提出的方法

  • 使用 WSJ si284、dev93 和 eval92 的发声单元,采样至 8 kHz,构建 33,561 条训练混合、491 条验证混合和 333 条测试混合。
  • 通过随机房间尺寸、阵列位置和说话人位置来仿真室内冲击响应,使用半径为 10 cm 的圆形阵列和随机延迟以分离早期与晚期语音分量。
  • 评估多种 SDR 变体(SI-SDR、BSS-Eval SDR)、感知指标(PESQ、STOI)和 WER,以对分离质量和下游识别进行全面评估。
  • 提供一个基于复杂角度中央高斯混合模型(cACGMM)的源分离基线,结合掩蔽和 MVDR 波束形成,以及用于协方差估计的畸变掩蔽。
  • 提供一个基于 Kaldi 的语音识别基线,使用在先前到达的语音图像上训练的 TDNN-F 声学模型,以实现具有竞争力的 WER 基线。
  • 提供文档和代码,以复现数据库、指标和基线(SMS-WSJ 仓库)。

实验结果

研究问题

  • RQ1在多样化且随机化的几何配置下,多通道远场语音分离的表现如何?
  • RQ2在混响条件下评估多通道 BSS 的最可靠性能指标是什么,应该如何解读?
  • RQ3在 SMS-WSJ 数据上,实际可行的基线 BSS 流程和 ASR 配方是否能达到有竞争力的性能?
  • RQ4不同的基线(如掩蔽、MVDR 以及各种波束形成器)在 Kaldi ASR 设置中的下游 WER 有何影响?

主要发现

  • SMS-WSJ 数据库提供一个基于 WSJ 发声、具有随机房间几何和声源的大型、多样且完全可复现的多通道数据集,便于对分离算法进行鲁棒评估。
  • 多种 SDR 变体和感知指标表明,以源信号为参考的 BSS-Eval SDR 在通道选择之间保持稳定,并且对评估远场分离具有信息性,而 SI-SDR 可能对短的 FIR 类失真敏感。
  • 以掩蔽和 MVDR 波束形成的基线 cACGMM 相对于单独掩蔽在 WER 上有提升,证明了空间聚类加波束形成的组合优势。
  • 在存在空间混合语音的情况下,使用先到达的语音图像进行 ASR 对齐得到有利的声学模型训练,Kaldi TDNN-F 配方实现了具有竞争力的 WER。
  • 作者建议使用多种互补指标(包括 WER),并在远场评估中偏好以源信号参考的 BSS-Eval SDR,而非 SI-SDR。
  • 表 2 表明在 SMS-WSJ 测试集上,基于 MVDR 的基线提供了比单纯掩蔽更好的 WER。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。