Skip to main content
QUICK REVIEW

[論文レビュー] WhisperAlign: Word-Boundary-Aware ASR and WhisperX-Anchored Pyannote Diarization for Long-Form Bengali Speech

Aurchi Chowdhury, Rubaiyat -E-Zaman|arXiv (Cornell University)|Mar 5, 2026
Speech Recognition and Synthesis被引用数 0
ひとこと要約

この論文は、長文ベンガル語ASRと話者区別のための二段階パイプラインを提案しており、語境境界認識のチャンク化とWhisperX-VAD交差を用いた排他的話者区分を用いて、低資源設定で強力なWERとDERを達成します。

ABSTRACT

This paper presents our solution for the DL Sprint 4.0, addressing the dual challenges of Bengali Long-Form Speech Recognition (Task 1) and Speaker Diarization (Task 2). Processing long-form, multi-speaker Bengali audio introduces significant hurdles in voice activity detection, overlapping speech, and context preservation. To solve the long-form transcription challenge, we implemented a robust audio chunking strategy utilizing whisper-timestamped, allowing us to feed precise, context-aware segments into our fine-tuned acoustic model for high-accuracy transcription. For the diarization task, we developed an integrated pipeline leveraging pyannote.audio and WhisperX. A key contribution of our approach is the domain-specific fine-tuning of the Pyannote segmentation model on the competition dataset. This adaptation allowed the model to better capture the nuances of Bengali conversational dynamics and accurately resolve complex, overlapping speaker boundaries. Our methodology demonstrates that applying intelligent timestamped chunking to ASR and targeted segmentation fine-tuning to diarization significantly drives down Word Error Rate (WER) and Diarization Error Rate (DER), in low-resource settings.

研究の動機と目的

  • 低資源設定における長文ベンガル語話学習認識と話者区別の課題に対処する。
  • 正確なセグメントをベンガル語Whisperモデルへ供給するための単語境界認識チャンク化パイプラインを自立的に開発する。
  • 競技特有のチャンクでベンガリ Whisper チェックポイントをファインチューニングし、WERを改善する。
  • 排他的重複処理を用いたベンガリ適応のPyannoteセグメンテーションを高速推論パイプラインで活用する。

提案手法

  • Silero VADが話の領域を特定し、境界の切り捨てを回避する。
  • Whisper-timestampedがクロスアテンションヘッドから語ごとのタイムスタンプを導出し、語境境界の整合を図る。
  • DifflibベースのアライメントがグラウンドトゥルースのタイムスタンプをWhisperの転写へ転送し、欠落アンカーには補間を適用。
  • 音声を28秒セグメントにチャンク化して語境境界を確保し、ファインチューニング用には20–28sを保持。
  • bengaliAI/tugstugi_bengaliai-asr_whisper-mediumを教師あり強制学習と5エポックでエンドツーエンドにファインチューニングする。
  • 推論はVADガイド付きの並列処理と、重複除去および英語定型文の後処理フィルターを用いる。
Figure 1: End-to-end training data pipeline: from raw long-form audio to aligned, boundary-respecting chunks for fine-tuning.
Figure 1: End-to-end training data pipeline: from raw long-form audio to aligned, boundary-respecting chunks for fine-tuning.

実験結果

リサーチクエスチョン

  • RQ1語境境界認識チャンク化とフレーム整列タイムスタンプは、長文ベンガル語ASRにおける幻聴を減らし文脈を保持できるか。
  • RQ2境界を尊重するセグメントでのドメイン適応ファインチューニングは、ベンガリWhisperのWERを改善するか。
  • RQ3排他的重複処理を含むベンガリ適応のPyannote話者区別は、競技非重複要件を満たしつつDERを高く保てるか。
  • RQ4WhisperX-VADとPyannoteの出力を交差させることで、話者区別における時間的ドラフトと周囲ノイズによる幻聴を減らせるか。

主な発見

SystemPublic WERPrivate WER
tugstugi — raw, no processing0.6750.702
+ VAD + post-processing0.4190.440
+ Unicode normalization0.3480.375
+ Fine-tuned (our chunking strategy)0.2650.296
+ Manual data cleaning (final)0.2520.278
  • パイプラインの各段階でWERが0.675から0.252–0.278へ改善(公開スコア/非公開スコアで)。
  • チャンクとアラインデータでファインチューニングすると最も大きなWER低減をもたらす(公開0.265、非公開0.296)。
  • VADと後処理の組み込みで初期の大きな改善を達成(公開0.419、非公開0.440)。
  • exclusive_speaker_diarizationとcommunity-1ベースモデルは、ベースラインPyannote 3.1と比較して話者区別性能を有意に向上させる。
  • WhisperX-VADとPyannoteの交差により、境界のドリフトを排除し、話者区別における幻聴を低減する。
Figure 2: Proposed parallel diarization architecture
Figure 2: Proposed parallel diarization architecture

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。