QUICK REVIEW

[论文解读] SMS-WSJ: Database, performance measures, and baseline recipe for multi-channel source separation and recognition

Lukas Drude, Jens Heitkaemper|arXiv (Cornell University)|Oct 30, 2019

Speech and Audio Processing参考文献 29被引用 58

一句话总结

SMS-WSJ 引入一个基于多通道的大型模拟 WSJ 数据库，具有随机房间几何和完整的多说话人源分离与识别基线，包括指标讨论和 Kaldi/TDNN-F 基线。

ABSTRACT

We present a multi-channel database of overlapping speech for training, evaluation, and detailed analysis of source separation and extraction algorithms: SMS-WSJ -- Spatialized Multi-Speaker Wall Street Journal. It consists of artificially mixed speech taken from the WSJ database, but unlike earlier databases we consider all WSJ0+1 utterances and take care of strictly separating the speaker sets present in the training, validation and test sets. When spatializing the data we ensure a high degree of randomness w.r.t. room size, array center and rotation, as well as speaker position. Furthermore, this paper offers a critical assessment of recently proposed measures of source separation performance. Alongside the code to generate the database we provide a source separation baseline and a Kaldi recipe with competitive word error rates to provide common ground for evaluation.

研究动机与目标

展示一个基于 WSJ 发声单元、具有随机几何配置的多通道重叠语音数据库，以实现可控的真实感。
批判性评估多通道源分离与识别的性能度量。
提供一个基线 BSS 流程和一个 ASR 方案，以实现公平比较和可重复性。

提出的方法

使用 WSJ si284、dev93 和 eval92 的发声单元，采样至 8 kHz，构建 33,561 条训练混合、491 条验证混合和 333 条测试混合。
通过随机房间尺寸、阵列位置和说话人位置来仿真室内冲击响应，使用半径为 10 cm 的圆形阵列和随机延迟以分离早期与晚期语音分量。
评估多种 SDR 变体（SI-SDR、BSS-Eval SDR）、感知指标（PESQ、STOI）和 WER，以对分离质量和下游识别进行全面评估。
提供一个基于复杂角度中央高斯混合模型（cACGMM）的源分离基线，结合掩蔽和 MVDR 波束形成，以及用于协方差估计的畸变掩蔽。
提供一个基于 Kaldi 的语音识别基线，使用在先前到达的语音图像上训练的 TDNN-F 声学模型，以实现具有竞争力的 WER 基线。
提供文档和代码，以复现数据库、指标和基线（SMS-WSJ 仓库）。

实验结果

研究问题

RQ1在多样化且随机化的几何配置下，多通道远场语音分离的表现如何？
RQ2在混响条件下评估多通道 BSS 的最可靠性能指标是什么，应该如何解读？
RQ3在 SMS-WSJ 数据上，实际可行的基线 BSS 流程和 ASR 配方是否能达到有竞争力的性能？
RQ4不同的基线（如掩蔽、MVDR 以及各种波束形成器）在 Kaldi ASR 设置中的下游 WER 有何影响？

主要发现

SMS-WSJ 数据库提供一个基于 WSJ 发声、具有随机房间几何和声源的大型、多样且完全可复现的多通道数据集，便于对分离算法进行鲁棒评估。
多种 SDR 变体和感知指标表明，以源信号为参考的 BSS-Eval SDR 在通道选择之间保持稳定，并且对评估远场分离具有信息性，而 SI-SDR 可能对短的 FIR 类失真敏感。
以掩蔽和 MVDR 波束形成的基线 cACGMM 相对于单独掩蔽在 WER 上有提升，证明了空间聚类加波束形成的组合优势。
在存在空间混合语音的情况下，使用先到达的语音图像进行 ASR 对齐得到有利的声学模型训练，Kaldi TDNN-F 配方实现了具有竞争力的 WER。
作者建议使用多种互补指标（包括 WER），并在远场评估中偏好以源信号参考的 BSS-Eval SDR，而非 SI-SDR。
表 2 表明在 SMS-WSJ 测试集上，基于 MVDR 的基线提供了比单纯掩蔽更好的 WER。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。