QUICK REVIEW

[論文レビュー] The USTC-NERCSLIP Systems for the CHiME-9 MCoRec Challenge

Ya Jiang, Ruoyu Wang|arXiv (Cornell University)|Mar 2, 2026

Speech and Audio Processing被引用数 0

ひとこと要約

この論文は、CHiME-9 MCoRec のマルチモーダル cascaded システムを提案し、アクティブスピーカー検出、音声視覚ターゲット抽出、音声視覚認識を Whisper/LLM ベースのクラスタリングと組み合わせて、開発データ上で competitive な WER と完璧なクラスタリング F1 を達成する。

ABSTRACT

This report details our submission to the CHiME-9 MCoRec Challenge on recognizing and clustering multiple concurrent natural conversations within indoor social settings. Unlike conventional meetings centered on a single shared topic, this scenario contains multiple parallel dialogues--up to eight speakers across up to four simultaneous conversations--with a speech overlap rate exceeding 90%. To tackle this, we propose a multimodal cascaded system that leverages per-speaker visual streams extracted from synchronized 360 degree video together with single-channel audio. Our system improves three components of the pipeline by leveraging enhanced audio-visual pretrained models: Active Speaker Detection (ASD), Audio-Visual Target Speech Extraction (AVTSE), and Audio-Visual Speech Recognition (AVSR). The AVSR module further incorporates Whisper and LLM techniques to boost transcription accuracy. Our best single cascaded system achieves a Speaker Word Error Rate (WER) of 32.44% on the development set. By further applying ROVER to fuse outputs from diverse front-end and back-end variants, we reduce Speaker WER to 31.40%. Notably, our LLM-based zero-shot conversational clustering achieves a speaker clustering F1 score of 1.0, yielding a final Joint ASR-Clustering Error Rate (JACER) of 15.70%.

研究の動機と目的

dense indoor social environments での複数同時会話の認識とクラスタリングを達成すること。
同期した 360° ビデオと単一チャネル音声を活用して speaker activity detection、target speech extraction、speech recognition を改善すること。
Whisper と大規模言語モデルの技法を組み込み、転写精度と会話クラスタリングを向上させること。
システムエンsembling と ROVER 融合を通じたエンドツーエンドの性能向上を示すこと。

提案手法

CHiME-9 MCoRec の公式セントラルトラックを ASD モジュールで処理し、トラックごとのフレームレベルの話者活動を推定する。
セグメント化された領域で音声視覚ターゲット抽出（AVTSE）を実行し、クリーンな音声ストリームを得る。
複数のバックエンドを含む AVSR システムを使用（BRAVEn ベースのエンコーダ、Whisper 統合、LLM 支援デコーダを含む）し、事後確率の平均化と ROVER で出力を融合する。
self-supervised pretraining とマルチモーダル入力（全顔とリップ ROI）を用いた大規模で多様な AV コーパスで AVSR モデルを訓練する。
AVSR のバリアントをアンサンブルし、ROVER を適用して最終転写を得る。
LLM（Qwen 2.5 と DeepSeek R1）を用いた2 段階アンサンブルで会話をクラスタリングする：候補生成と選択を繰り返し、投票で speaker-to-conversation の割り当てを確定する。
ASR とクラスタリングの結果を組み合わせて Joint ASR-Clustering Error Rate (JACER) を計算する。

実験結果

リサーチクエスチョン

RQ1ASD、AVTSE、AVSR を組み合わせた cascaded な音声視覚パイプラインで、マルチスピーカーのオーバーラップをどう対処できるか？
RQ2大規模な音声視覚事前学習と全顔対 lips の視覚情報の違いは ASD/AVTSE/AVSR の性能にどう影響するか？
RQ3LLM ベースの会話クラスタリングは、重なり合う対話のスピーカーグループ識別で高い精度を達成できるか？アンサンブル融合はロバスト性にどう影響するか？
RQ4多様な AVSR バックエンドを融合し、ROVER を適用することで、強く重複する設定でどの程度の利得が得られるか？

主な発見

最高の単一 cascaded システムの Speaker WER は development セットで 32.44%。
front-end および back-end のバリアントをまたぐ ROVER 融合により Speaker WER が 31.40% に低下。
LLM ベースのゼロショットクラスタリングは development データで speaker clustering F1 を 1.0、JACER を 15.70% を達成。
ASD のリコールと精度の改善は baseline を上回り、リコール 82.74%、精度 95.92%（WER 31.23%）。
4 つの AVTSE システムは元の混合音源に対して改善が見られ、AVSR バックエンドはリップと全顔の手掛かりおよび Whisper 統合の恩恵を受ける。
事後確率の平均化は AVSR バリアント全体で堅牢性を一貫して向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。