QUICK REVIEW

[论文解读] The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

Samuele Cornell, Matthew Wiesner|arXiv (Cornell University)|Jun 23, 2023

Speech Recognition and Synthesis被引用 9

一句话总结

本文提出 CHiME-7 DASR 挑战，用于跨多个设备的遥距会议转写，覆盖 CHiME-6、DiPCo 与 Mixer 6 情景，提出 DA-WER 作为对话分辨的评估指标，并给出一个阵列无关的基线系统，利用通道选择、GSS 与基于 SSLR 的 ASR。

ABSTRACT

The CHiME challenges have played a significant role in the development and evaluation of robust automatic speech recognition (ASR) systems. We introduce the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises joint ASR and diarization in far-field settings with multiple, and possibly heterogeneous, recording devices. Different from previous challenges, we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal is for participants to devise a single system that can generalize across different array geometries and use cases with no a-priori information. Another departure from earlier CHiME iterations is that participants are allowed to use open-source pre-trained models and datasets. In this paper, we describe the challenge design, motivation, and fundamental research questions in detail. We also present the baseline system, which is fully array-topology agnostic and features multi-channel diarization, channel selection, guided source separation and a robust ASR model that leverages self-supervised speech representations (SSLR).

研究动机与目标

在不同阵列拓扑和声学条件下，培养跨域可泛化的遥距会议转写能力。
利用开源预训练模型和外部数据集，实现资源高效的研究。
引入对话身份识别感知的评估指标（DA-WER），并分析在三个情景下基线的表现。

提出的方法

定义一个两轨 CHiME-7 DASR 任务，主轨为时间标注、说话人归属的 transcripts，选轨为可选的 oracle diarization。
提出一个 DIAR/ASR 基线，阵列拓扑不可知，使用自动通道选择（包络方差）和对最佳通道的引导源分离（GSS）。
结合多通道对话识别模块（本地 EEND）并进行通道选择以降低计算量，随后采用单声道 ASR，前端采用基于 WavLM 的特征。
采用 DA-WER 指标，利用海灵博格匹配（Hungarian matching）达到最优 diarization 映射，在各情景下计算 diarization 属性化的 WER。
利用自监督与基础模型（如 WavLM、HuBERT）及外部数据集进行数据增强与鲁棒训练。
提供一个用 ESPNet2 实现的 CHiME-7 基线以便重复性研究。

实验结果

研究问题

RQ1在不同阵列几何和说话人数下，一台系统在 CHiME-6、DiPCo 与 Mixer 6 的跨情景泛化能力如何？
RQ2自动通道选择与 GSS 对遥距多说话人 ASR 在多声学条件下的影响如何？
RQ3自监督表征和开放外部数据是否能在现实世界情景中提升遥距会议转写的表现？
RQ4在没有精确标签映射的情况下，所提出的 DA-WER 在评估联合 ASR 与 diarization 性能方面到底有多有效？
RQ5在这些条件下，相对于如 Whisper 这类大型预训练模型，阵列不可知的基线系统能达到怎样的基线性能？

主要发现

Table 2: Diarization baseline 结果（DER, JER）	Table 3: DA-WER 结果（sub-track 与 main-track）
CHiME-6	Dev: DER 40.0	JER 51.1	Eval: DER 56.3	JER 62.5
DiPCo	Dev: DER 29.8	JER 41.4	Eval: DER 27.9	JER 40.9
Mixer 6	Dev: DER 16.6	JER 22.8	Eval: DER 9.3	JER 11.0
Macro	Dev: 28.8	JER 38.5	Eval: 31.2	JER 38.2
Table 3 entries for Baseline sub	Dev 32.6	62.4	Eval 35.5	77.4
Table 3 entries for Baseline main	Dev 62.4	?	Eval 77.4	?
Table 3 Whisper sub	Dev 30.9	58.4	Eval 36.6	74.0
Table 3 Whisper main	Dev 36.6	74.0	Eval 32.5	53.2

在三个情景下的 DA-WER 宏平均显示基线存在挑战，子轨普遍比主轨更有利，因为 diarization 的影响。
Diarization 基线显示 CHiME-6 仍是 DER（Dev: 40.0, Eval: 56.3）最难的情景，相较于 DiPCo（Dev: 29.8, Eval: 27.9）和 Mixer 6（Dev: 16.6, Eval: 9.3）。
通道选择（前 80%）结合 GSS 在推断时间与 WER 之间实现良好权衡，Mixer 6 在通道增多时受益明显。
使用基于 WavLM 的特征并以 CHiME-6+Mixer6 的训练数据的基线 ASR，在 acoustically robust sub-track 的 DA-WER 方面与 Whisper 相当，尽管在主轨结果上 Whisper 略胜一筹。
DIAR/ASR 基线在跨情景泛化方面表现出合理能力，但距离实现实际真实世界性能仍有较大差距，即使使用 oracle diarization。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。