Skip to main content
QUICK REVIEW

[논문 리뷰] WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Aurchi Chowdhury, Rubaiyat -E-Zaman|arXiv (Cornell University)|2026. 03. 05.
Speech Recognition and Synthesis인용 수 0
한 줄 요약

이 논문은 저자원 설정에서 강력한 WER 및 DER를 달성하기 위해 word-boundary-aware 청크화와 도메인에 적응된, 독점-스피커 다이어라이제이션을 WhisperX-VAD 교차점을 통해 활용하는 장문 벵골어 ASR 및 스피커 다이어라이제이션을 위한 이중 단계 파이프라인을 제시한다.

ABSTRACT

This paper presents our solution for the DL Sprint 4.0, addressing the dual challenges of Bengali Long-Form Speech Recognition (Task 1) and Speaker Diarization (Task 2). Processing long-form, multi-speaker Bengali audio introduces significant hurdles in voice activity detection, overlapping speech, and context preservation. To solve the long-form transcription challenge, we implemented a robust audio chunking strategy utilizing whisper-timestamped, allowing us to feed precise, context-aware segments into our fine-tuned acoustic model for high-accuracy transcription. For the diarization task, we developed an integrated pipeline leveraging pyannote.audio and WhisperX. A key contribution of our approach is the domain-specific fine-tuning of the Pyannote segmentation model on the competition dataset. This adaptation allowed the model to better capture the nuances of Bengali conversational dynamics and accurately resolve complex, overlapping speaker boundaries. Our methodology demonstrates that applying intelligent timestamped chunking to ASR and targeted segmentation fine-tuning to diarization significantly drives down Word Error Rate (WER) and Diarization Error Rate (DER), in low-resource settings.

연구 동기 및 목표

  • 저자원 설정에서 벵골어 장문 음성인식 및 화자 다이어라이제이션의 도전 과제를 해결한다.
  • 정밀한 구간을 벵골어 Whisper 모델에 공급하기 위한 자체 포함형 word-boundary-aware 청크 파이프라인을 개발한다.
  • 경쟁 특정 청크에서 벵골어 Whisper 체크포인트를 미세조정하여 WER를 개선한다.
  • 빠른 추론 파이프라인에서 배타적 중첩 처리와 함께 벵골어 프로소디에 맞춘 Pyannote 세분화를 적응시킨다.

제안 방법

  • 경계 절단을 피하기 위해 Silero VAD가 음성 영역을 식별한다.
  • Whisper-timestamped가 교차 주의(attention heads)에서 단어 경계 정렬을 위한 단어별 타임스탬프를 도출한다.
  • Difflib 기반 정렬이 그라운드 트루스 타임스탬프를 Whisper 전사로 전송하고, 누락된 앵커에 대해 보간한다.
  • 단어 경계를 보장하는 28초 간격의 오디오를 잘라, 미세조정을 위해 20–28s를 유지한다.
  • 5 에포크의 교사 강제(teacher forcing)로 bengaliAI/tugstugi_bengaliai-asr_whisper-medium 말단-까지 미세조정한다.
  • 추론은 VAD-guided 병렬 처리와 반복 제거 및 영어 보일러플레이트를 제거하는 후처리 필터를 사용한다.
Figure 1: End-to-end training data pipeline: from raw long-form audio to aligned, boundary-respecting chunks for fine-tuning.
Figure 1: End-to-end training data pipeline: from raw long-form audio to aligned, boundary-respecting chunks for fine-tuning.

실험 결과

연구 질문

  • RQ1word-boundary-aware 청크화 및 프레임 정렬 타임스탬프가 벵골어의 장문 ASR에서 환각을 줄이고 맥락을 보존할 수 있는가?
  • RQ2경계 존중 구간에서의 도메인 적응 미세조정이 벵골어 Whisper의 WER를 향상시키는가?
  • RQ3배타적 중첩 처리와 함께 벵골어에 맞춘 Pyannote 다이어라이제이션이 대회의 비중첩 요구를 충족하면서 DER를 유지할 수 있는가?
  • RQ4WhisperX VAD와 Pyannote 출력의 교차가 다이어라이제이션에서 시간적 드리프트와 주변 환각을 줄이는가?

주요 결과

시스템공개 WER비공개 WER
tugstugi — raw, no processing0.6750.702
+ VAD + post-processing0.4190.440
+ Unicode normalization0.3480.375
+ Fine-tuned (our chunking strategy)0.2650.296
+ Manual data cleaning (final)0.2520.278
  • WER이 파이프라인 단계별로 0.675에서 0.252–0.278로 감소했다(공개/비공개 점수).
  • 청크-정렬 데이터로 미세조정하면 WER 감소가 가장 크게 나타나(공개 0.265, 비공개 0.296).
  • VAD 및 후처리 도입으로 초기 이득이 크게 나타난다(공개 0.419, 비공개 0.440).
  • Exclusive_speaker_diarization 및 커뮤니티-1 기본 모델이 Pyannote 3.1 대비 다이어라이제이션 성능을 크게 향상시킨다.
  • WhisperX-VAD 교차와 Pyannote의 결합은 경계 드리프트를 제거하고 다이어라이제이션에서 환각을 줄인다.
Figure 2: Proposed parallel diarization architecture
Figure 2: Proposed parallel diarization architecture

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.