QUICK REVIEW

[论文解读] CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings

Shinji Watanabe, Michael Mandel|arXiv (Cornell University)|Apr 20, 2020

Speech Recognition and Synthesis参考文献 49被引用 97

一句话总结

本论文介绍 CHiME-6 的两条赛道：Track 1 针对分段的多说话人ASR，Track 2 针对未分段的多说话人 ASR 并具备说话人识别，提供端到端多说话人处理的开源 Kaldi 基线。

ABSTRACT

Following the success of the 1st, 2nd, 3rd, 4th and 5th CHiME challenges we organize the 6th CHiME Speech Separation and Recognition Challenge (CHiME-6). The new challenge revisits the previous CHiME-5 challenge and further considers the problem of distant multi-microphone conversational speech diarization and recognition in everyday home environments. Speech material is the same as the previous CHiME-5 recordings except for accurate array synchronization. The material was elicited using a dinner party scenario with efforts taken to capture data that is representative of natural conversational speech. This paper provides a baseline description of the CHiME-6 challenge for both segmented multispeaker speech recognition (Track 1) and unsegmented multispeaker speech recognition (Track 2). Of note, Track 2 is the first challenge activity in the community to tackle an unsegmented multispeaker speech recognition scenario with a complete set of reproducible open source baselines providing speech enhancement, speaker diarization, and speech recognition modules.

研究动机与目标

在真实家庭环境中通过两条赛道（分段和未分段）推进远场麦克风多说话人ASR。
提供可重复的基线，包括语音增强、说话人识别和在 Kaldi 中集成的 ASR 组件。
在真实、具备说话人识别的环境中量化说话人识别错误对识别性能的影响。
提供开源配方，降低从事未分段多说话人 ASR 的研究人员的进入门槛。

提出的方法

两条挑战赛道：Track 1（带真值说话人识别的 ASR）和 Track 2（说话人识别 + ASR）。
用于对齐多套商业4通道麦克风阵列的阵列对齐基线。
基于 guided source separation (GSS) 和 BeamformIt 的语音增强前端，可选 WPE 去混响。
基于 Kaldi 的 ASR 流水线，包含 MFCC 特征、GMM-HMM 与 chain TDNN-F 声学模型。
数据增强、数据准备，以及采用两阶段 i-vector/波束形成增强解码的解码过程。
Track 2 的说话人识别管线使用 x-vectors (TDNN) 与 PLDA 评分和 AHC，并且基于 RTTM 的评估。

实验结果

研究问题

RQ1在未分段的多说话人录音中，说话人识别对 ASR 性能有何影响？
RQ2可复现的开源基线（用于同步、增强、说话人识别和 ASR）是否能简化进入 CHiME-6 风格任务？
RQ3在真实家庭环境中，分段 ASR 与未分段多说话人 ASR 的基线性能差距是多少？

主要发现

Track 1 基线 ASR 的 WER：Dev 51.8%，Eval 51.3%。
Track 2 基线 SAD 结果（注释 RTTM）：DEV DER 61.6%，JER 69.8%；EVAL DER 62.0%，JER 71.4%。
Track 2 基线 SAD 结果（对齐 RTTM）：DEV DER 63.4%，JER 70.8%；EVAL DER 68.2%，JER 72.5%。
Track 1 使用 BeamformIt 的增强：WER 69.8%（DEV）和 61.2%（EVAL）。
Track 1 使用 GSS 的增强：WER 51.8%（DEV）和 51.3%（EVAL）。
Track 2 使用 BeamformIt 的增强：WER 84.3%（DEV）和 77.9%（EVAL）。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。