QUICK REVIEW

[논문 리뷰] The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

Samuele Cornell, Matthew Wiesner|arXiv (Cornell University)|2023. 06. 23.

Speech Recognition and Synthesis인용 수 9

한 줄 요약

이 논문은 CHiME-7 DASR 도전을 제안하며, CHiME-6, DiPCo, Mixer 6 시나리오 전반에 걸친 다중 기기 간의 거리 회의 전사를 다루고, 다이어리제이션 인식 평가 지표 DA-WER를 제시하며 채널 선택, GSS, SSLR-based ASR를 활용한 baseline 배열 독립 시스템을 상세히 설명한다.

ABSTRACT

The CHiME challenges have played a significant role in the development and evaluation of robust automatic speech recognition (ASR) systems. We introduce the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises joint ASR and diarization in far-field settings with multiple, and possibly heterogeneous, recording devices. Different from previous challenges, we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal is for participants to devise a single system that can generalize across different array geometries and use cases with no a-priori information. Another departure from earlier CHiME iterations is that participants are allowed to use open-source pre-trained models and datasets. In this paper, we describe the challenge design, motivation, and fundamental research questions in detail. We also present the baseline system, which is fully array-topology agnostic and features multi-channel diarization, channel selection, guided source separation and a robust ASR model that leverages self-supervised speech representations (SSLR).

연구 동기 및 목표

다양한 배열 토폴로지와 음향 조건에서 교차 도메인 일반화가 가능한 먼 거리 회의 전사를 촉진한다.
자원 효율적인 연구를 가능하게 하기 위해 오픈 소스 사전 학습 모델과 외부 데이터세트를 활용한다.
다이어리제이션 인식 평가 지표(DA-WER)를 도입하고 세 가지 시나리오에 걸친 baseline 성능을 분석한다.

제안 방법

두 트랙 CHiME-7 DASR 과제를 정의한다. 메인 트랙(시간 표기된 화자 지시 전사본)과 선택적 서브 트랙(오라클 다이어리제이션)을 포함한다.
배열 토폴로지에 구애받지 않는 DIAR/ASR baseline을 제안한다. 자동 채널 선택(엔벨로프 분산)과 Best 채널에서의 Guided Source Separation(GSS)을 사용한다.
다중 채널 다이어리제이션 모듈(로컬 EEND)과 채널 선택을 통해 계산량을 줄인 후, WavLM 기반 피처 프런트엔드를 사용하는 단일 모놀랄 ASR을 적용한다.
Hungarian 매칭을 통한 최적의 다이어리제이션 매핑으로 시나리오 간 다이어리제이션에 귀속된 WER를 계산하는 DA-WER 지표를 채택한다.
자체 감독 학습 및 파운데이션 모델(WavLM, HuBERT)과 외부 데이터세트를 활용한 데이터 증강 및 강인한 학습을 수행한다.
재현성을 높이기 위해 ESPNet2로 구현된 CHiME-7 baseline을 제공한다.

실험 결과

연구 질문

RQ1다른 배열 기하학 및 화자 수에서 CHiME-6, DiPCo, Mixer 6를 아우르는 단일 시스템의 일반화 성능은 얼마나 뛰어나다고 평가될 수 있는가?
RQ2자동 채널 선택 및 GSS가 다양한 음향 조건에서 먼 거리 다중 화자 ASR에 미치는 영향은 얼마나 되는가?
RQ3자체 감독 표현 및 개방형 외부 데이터가 실제 환경과 유사한 시나리오에서 먼 거리 회의 전사를 개선하는가?
RQ4정확한 라벨 매핑 없이도 제안된 DA-WER 지표가 결합된 ASR 및 다이어리제이션 성능 평가에 얼마나 효과적인가?
RQ5이 조건에서 배열 독립 시스템이 Whisper 같은 대형 사전 학습 모델에 비해 어떤 기준의 baseline 성능을 달성할 수 있는가?

주요 결과

Table 2: Diarization baseline results (DER, JER)	Table 3: DA-WER results (sub-track and main-track)
CHiME-6	Dev: DER 40.0	JER 51.1	Eval: DER 56.3	JER 62.5
DiPCo	Dev: DER 29.8	JER 41.4	Eval: DER 27.9	JER 40.9
Mixer 6	Dev: DER 16.6	JER 22.8	Eval: DER 9.3	JER 11.0
Macro	Dev: 28.8	JER 38.5	Eval: 31.2	JER 38.2
Table 3 entries for Baseline sub	Dev 32.6	62.4	Eval 35.5	77.4
Table 3 entries for Baseline main	Dev 62.4	?	Eval 77.4	?
Table 3 Whisper sub	Dev 30.9	58.4	Eval 36.6	74.0
Table 3 Whisper main	Dev 36.6	74.0	Eval 32.5	53.2

DA-WER 매크로 평균은 세 시나리오에 걸쳐 baseline 성능의 도전 과제를 보여주며, 다이어리제이션의 영향으로 서브 트랙이 메인 트랙보다 일반적으로 더 양호하다.
다이어리제이션 baseline은 CHiME-6가 DER(Dev: 40.0, Eval: 56.3)에서 DiPCo(Dev: 29.8, Eval: 27.9) 및 Mixer 6(Dev: 16.6, Eval: 9.3)보다 여전히 가장 어려운 시나리오로 남아 있음을 보인다.
채널 선택(top 80%)과 GSS의 결합은 추론 시간과 WER 사이의 유리한 트레이드오프를 제공하며, Mixer 6는 더 많은 채널에서 이점이 있다.
WavLM 기반 피처와 CHiME-6+Mixer6 학습 데이터를 사용한 baseline ASR은 음향 강건성 서브 트랙에서 Whisper와 비슷한 DA-WER를 달성하나, 메인 트랙에서 Whisper가 다소 더 우수한 결과를 보인다.
DIAR/ASR baseline은 시나리오 간 일반화에 합리적인 성능을 보여주지만, 오라클 다이어리제이션이 있더라도 실제 세계 성능에 도달하려면 여전히 상당한 차이가 남아 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.