Skip to main content
QUICK REVIEW

[논문 리뷰] The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple Devices in Diverse Scenarios

Samuele Cornell, Matthew Wiesner|arXiv (Cornell University)|2023. 06. 23.
Speech Recognition and Synthesis인용 수 9
한 줄 요약

이 논문은 CHiME-7 DASR 도전을 제안하며, CHiME-6, DiPCo, Mixer 6 시나리오 전반에 걸친 다중 기기 간의 거리 회의 전사를 다루고, 다이어리제이션 인식 평가 지표 DA-WER를 제시하며 채널 선택, GSS, SSLR-based ASR를 활용한 baseline 배열 독립 시스템을 상세히 설명한다.

ABSTRACT

The CHiME challenges have played a significant role in the development and evaluation of robust automatic speech recognition (ASR) systems. We introduce the CHiME-7 distant ASR (DASR) task, within the 7th CHiME challenge. This task comprises joint ASR and diarization in far-field settings with multiple, and possibly heterogeneous, recording devices. Different from previous challenges, we evaluate systems on 3 diverse scenarios: CHiME-6, DiPCo, and Mixer 6. The goal is for participants to devise a single system that can generalize across different array geometries and use cases with no a-priori information. Another departure from earlier CHiME iterations is that participants are allowed to use open-source pre-trained models and datasets. In this paper, we describe the challenge design, motivation, and fundamental research questions in detail. We also present the baseline system, which is fully array-topology agnostic and features multi-channel diarization, channel selection, guided source separation and a robust ASR model that leverages self-supervised speech representations (SSLR).

연구 동기 및 목표

  • 다양한 배열 토폴로지와 음향 조건에서 교차 도메인 일반화가 가능한 먼 거리 회의 전사를 촉진한다.
  • 자원 효율적인 연구를 가능하게 하기 위해 오픈 소스 사전 학습 모델과 외부 데이터세트를 활용한다.
  • 다이어리제이션 인식 평가 지표(DA-WER)를 도입하고 세 가지 시나리오에 걸친 baseline 성능을 분석한다.

제안 방법

  • 두 트랙 CHiME-7 DASR 과제를 정의한다. 메인 트랙(시간 표기된 화자 지시 전사본)과 선택적 서브 트랙(오라클 다이어리제이션)을 포함한다.
  • 배열 토폴로지에 구애받지 않는 DIAR/ASR baseline을 제안한다. 자동 채널 선택(엔벨로프 분산)과 Best 채널에서의 Guided Source Separation(GSS)을 사용한다.
  • 다중 채널 다이어리제이션 모듈(로컬 EEND)과 채널 선택을 통해 계산량을 줄인 후, WavLM 기반 피처 프런트엔드를 사용하는 단일 모놀랄 ASR을 적용한다.
  • Hungarian 매칭을 통한 최적의 다이어리제이션 매핑으로 시나리오 간 다이어리제이션에 귀속된 WER를 계산하는 DA-WER 지표를 채택한다.
  • 자체 감독 학습 및 파운데이션 모델(WavLM, HuBERT)과 외부 데이터세트를 활용한 데이터 증강 및 강인한 학습을 수행한다.
  • 재현성을 높이기 위해 ESPNet2로 구현된 CHiME-7 baseline을 제공한다.

실험 결과

연구 질문

  • RQ1다른 배열 기하학 및 화자 수에서 CHiME-6, DiPCo, Mixer 6를 아우르는 단일 시스템의 일반화 성능은 얼마나 뛰어나다고 평가될 수 있는가?
  • RQ2자동 채널 선택 및 GSS가 다양한 음향 조건에서 먼 거리 다중 화자 ASR에 미치는 영향은 얼마나 되는가?
  • RQ3자체 감독 표현 및 개방형 외부 데이터가 실제 환경과 유사한 시나리오에서 먼 거리 회의 전사를 개선하는가?
  • RQ4정확한 라벨 매핑 없이도 제안된 DA-WER 지표가 결합된 ASR 및 다이어리제이션 성능 평가에 얼마나 효과적인가?
  • RQ5이 조건에서 배열 독립 시스템이 Whisper 같은 대형 사전 학습 모델에 비해 어떤 기준의 baseline 성능을 달성할 수 있는가?

주요 결과

Table 2: Diarization baseline results (DER, JER)Table 3: DA-WER results (sub-track and main-track)
CHiME-6Dev: DER 40.0JER 51.1Eval: DER 56.3JER 62.5
DiPCoDev: DER 29.8JER 41.4Eval: DER 27.9JER 40.9
Mixer 6Dev: DER 16.6JER 22.8Eval: DER 9.3JER 11.0
MacroDev: 28.8JER 38.5Eval: 31.2JER 38.2
Table 3 entries for Baseline subDev 32.662.4Eval 35.577.4
Table 3 entries for Baseline mainDev 62.4?Eval 77.4?
Table 3 Whisper subDev 30.958.4Eval 36.674.0
Table 3 Whisper mainDev 36.674.0Eval 32.553.2
  • DA-WER 매크로 평균은 세 시나리오에 걸쳐 baseline 성능의 도전 과제를 보여주며, 다이어리제이션의 영향으로 서브 트랙이 메인 트랙보다 일반적으로 더 양호하다.
  • 다이어리제이션 baseline은 CHiME-6가 DER(Dev: 40.0, Eval: 56.3)에서 DiPCo(Dev: 29.8, Eval: 27.9) 및 Mixer 6(Dev: 16.6, Eval: 9.3)보다 여전히 가장 어려운 시나리오로 남아 있음을 보인다.
  • 채널 선택(top 80%)과 GSS의 결합은 추론 시간과 WER 사이의 유리한 트레이드오프를 제공하며, Mixer 6는 더 많은 채널에서 이점이 있다.
  • WavLM 기반 피처와 CHiME-6+Mixer6 학습 데이터를 사용한 baseline ASR은 음향 강건성 서브 트랙에서 Whisper와 비슷한 DA-WER를 달성하나, 메인 트랙에서 Whisper가 다소 더 우수한 결과를 보인다.
  • DIAR/ASR baseline은 시나리오 간 일반화에 합리적인 성능을 보여주지만, 오라클 다이어리제이션이 있더라도 실제 세계 성능에 도달하려면 여전히 상당한 차이가 남아 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.