Skip to main content
QUICK REVIEW

[论文解读] CHiME-6 Challenge:Tackling Multispeaker Speech Recognition for Unsegmented Recordings

Shinji Watanabe, Michael Mandel|arXiv (Cornell University)|Apr 20, 2020
Speech Recognition and Synthesis参考文献 49被引用 97
一句话总结

本论文介绍 CHiME-6 的两条赛道:Track 1 针对分段的多说话人ASR,Track 2 针对未分段的多说话人 ASR 并具备说话人识别,提供端到端多说话人处理的开源 Kaldi 基线。

ABSTRACT

Following the success of the 1st, 2nd, 3rd, 4th and 5th CHiME challenges we organize the 6th CHiME Speech Separation and Recognition Challenge (CHiME-6). The new challenge revisits the previous CHiME-5 challenge and further considers the problem of distant multi-microphone conversational speech diarization and recognition in everyday home environments. Speech material is the same as the previous CHiME-5 recordings except for accurate array synchronization. The material was elicited using a dinner party scenario with efforts taken to capture data that is representative of natural conversational speech. This paper provides a baseline description of the CHiME-6 challenge for both segmented multispeaker speech recognition (Track 1) and unsegmented multispeaker speech recognition (Track 2). Of note, Track 2 is the first challenge activity in the community to tackle an unsegmented multispeaker speech recognition scenario with a complete set of reproducible open source baselines providing speech enhancement, speaker diarization, and speech recognition modules.

研究动机与目标

  • 在真实家庭环境中通过两条赛道(分段和未分段)推进远场麦克风多说话人ASR。
  • 提供可重复的基线,包括语音增强、说话人识别和在 Kaldi 中集成的 ASR 组件。
  • 在真实、具备说话人识别的环境中量化说话人识别错误对识别性能的影响。
  • 提供开源配方,降低从事未分段多说话人 ASR 的研究人员的进入门槛。

提出的方法

  • 两条挑战赛道:Track 1(带真值说话人识别的 ASR)和 Track 2(说话人识别 + ASR)。
  • 用于对齐多套商业4通道麦克风阵列的阵列对齐基线。
  • 基于 guided source separation (GSS) 和 BeamformIt 的语音增强前端,可选 WPE 去混响。
  • 基于 Kaldi 的 ASR 流水线,包含 MFCC 特征、GMM-HMM 与 chain TDNN-F 声学模型。
  • 数据增强、数据准备,以及采用两阶段 i-vector/波束形成增强解码的解码过程。
  • Track 2 的说话人识别管线使用 x-vectors (TDNN) 与 PLDA 评分和 AHC,并且基于 RTTM 的评估。

实验结果

研究问题

  • RQ1在未分段的多说话人录音中,说话人识别对 ASR 性能有何影响?
  • RQ2可复现的开源基线(用于同步、增强、说话人识别和 ASR)是否能简化进入 CHiME-6 风格任务?
  • RQ3在真实家庭环境中,分段 ASR 与未分段多说话人 ASR 的基线性能差距是多少?

主要发现

  • Track 1 基线 ASR 的 WER:Dev 51.8%,Eval 51.3%。
  • Track 2 基线 SAD 结果(注释 RTTM):DEV DER 61.6%,JER 69.8%;EVAL DER 62.0%,JER 71.4%。
  • Track 2 基线 SAD 结果(对齐 RTTM):DEV DER 63.4%,JER 70.8%;EVAL DER 68.2%,JER 72.5%。
  • Track 1 使用 BeamformIt 的增强:WER 69.8%(DEV)和 61.2%(EVAL)。
  • Track 1 使用 GSS 的增强:WER 51.8%(DEV)和 51.3%(EVAL)。
  • Track 2 使用 BeamformIt 的增强:WER 84.3%(DEV)和 77.9%(EVAL)。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。