Skip to main content
QUICK REVIEW

[論文レビュー] The USTC-NERCSLIP Systems for the CHiME-9 MCoRec Challenge

Ya Jiang, Ruoyu Wang|arXiv (Cornell University)|Mar 2, 2026
Speech and Audio Processing被引用数 0
ひとこと要約

この論文は、CHiME-9 MCoRec のマルチモーダル cascaded システムを提案し、アクティブスピーカー検出、音声視覚ターゲット抽出、音声視覚認識を Whisper/LLM ベースのクラスタリングと組み合わせて、開発データ上で competitive な WER と完璧なクラスタリング F1 を達成する。

ABSTRACT

This report details our submission to the CHiME-9 MCoRec Challenge on recognizing and clustering multiple concurrent natural conversations within indoor social settings. Unlike conventional meetings centered on a single shared topic, this scenario contains multiple parallel dialogues--up to eight speakers across up to four simultaneous conversations--with a speech overlap rate exceeding 90%. To tackle this, we propose a multimodal cascaded system that leverages per-speaker visual streams extracted from synchronized 360 degree video together with single-channel audio. Our system improves three components of the pipeline by leveraging enhanced audio-visual pretrained models: Active Speaker Detection (ASD), Audio-Visual Target Speech Extraction (AVTSE), and Audio-Visual Speech Recognition (AVSR). The AVSR module further incorporates Whisper and LLM techniques to boost transcription accuracy. Our best single cascaded system achieves a Speaker Word Error Rate (WER) of 32.44% on the development set. By further applying ROVER to fuse outputs from diverse front-end and back-end variants, we reduce Speaker WER to 31.40%. Notably, our LLM-based zero-shot conversational clustering achieves a speaker clustering F1 score of 1.0, yielding a final Joint ASR-Clustering Error Rate (JACER) of 15.70%.

研究の動機と目的

  • dense indoor social environments での複数同時会話の認識とクラスタリングを達成すること。
  • 同期した 360° ビデオと単一チャネル音声を活用して speaker activity detection、target speech extraction、speech recognition を改善すること。
  • Whisper と大規模言語モデルの技法を組み込み、転写精度と会話クラスタリングを向上させること。
  • システムエンsembling と ROVER 融合を通じたエンドツーエンドの性能向上を示すこと。

提案手法

  • CHiME-9 MCoRec の公式セントラルトラックを ASD モジュールで処理し、トラックごとのフレームレベルの話者活動を推定する。
  • セグメント化された領域で音声視覚ターゲット抽出(AVTSE)を実行し、クリーンな音声ストリームを得る。
  • 複数のバックエンドを含む AVSR システムを使用(BRAVEn ベースのエンコーダ、Whisper 統合、LLM 支援デコーダを含む)し、事後確率の平均化と ROVER で出力を融合する。
  • self-supervised pretraining と マルチモーダル入力(全顔とリップ ROI)を用いた大規模で多様な AV コーパスで AVSR モデルを訓練する。
  • AVSR のバリアントをアンサンブルし、ROVER を適用して最終転写を得る。
  • LLM(Qwen 2.5 と DeepSeek R1)を用いた2 段階アンサンブルで会話をクラスタリングする:候補生成と選択を繰り返し、投票で speaker-to-conversation の割り当てを確定する。
  • ASR とクラスタリングの結果を組み合わせて Joint ASR-Clustering Error Rate (JACER) を計算する。

実験結果

リサーチクエスチョン

  • RQ1ASD、AVTSE、AVSR を組み合わせた cascaded な音声視覚パイプラインで、マルチスピーカーのオーバーラップをどう対処できるか?
  • RQ2大規模な音声視覚事前学習と全顔対 lips の視覚情報の違いは ASD/AVTSE/AVSR の性能にどう影響するか?
  • RQ3LLM ベースの会話クラスタリングは、重なり合う対話のスピーカーグループ識別で高い精度を達成できるか?アンサンブル融合はロバスト性にどう影響するか?
  • RQ4多様な AVSR バックエンドを融合し、ROVER を適用することで、強く重複する設定でどの程度の利得が得られるか?

主な発見

  • 最高の単一 cascaded システムの Speaker WER は development セットで 32.44%。
  • front-end および back-end のバリアントをまたぐ ROVER 融合により Speaker WER が 31.40% に低下。
  • LLM ベースのゼロショットクラスタリングは development データで speaker clustering F1 を 1.0、JACER を 15.70% を達成。
  • ASD のリコールと精度の改善は baseline を上回り、リコール 82.74%、精度 95.92%(WER 31.23%)。
  • 4 つの AVTSE システムは元の混合音源に対して改善が見られ、AVSR バックエンドはリップと全顔の手掛かりおよび Whisper 統合の恩恵を受ける。
  • 事後確率の平均化は AVSR バリアント全体で堅牢性を一貫して向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。