Skip to main content
QUICK REVIEW

[論文レビュー] Plug-and-Steer: Decoupling Separation and Selection in Audio-Visual Target Speaker Extraction

Doyeop Kwak, Suyeon Lee|arXiv (Cornell University)|Mar 20, 2026
Speech and Audio Processing被引用数 0
ひとこと要約

音声のみの分離 backbone を凍結し、Latent Steering Matrix (LSM) と視覚的ステアリングモジュールを用いて AV-TSE におけるターゲット選択を分離させ、潜在特徴を介してターゲットをルーティングしつつ高忠実度の音響 priors を保持するフレームワーク。

ABSTRACT

The goal of this paper is to provide a new perspective on audio-visual target speaker extraction (AV-TSE) by decoupling the separation and target selection. Conventional AV-TSE systems typically integrate audio and visual features deeply to re-learn the entire separation process, which can act as a fidelity ceiling due to the noisy nature of in-the-wild audio-visual datasets. To address this, we propose Plug-and-Steer, which assigns high-fidelity separation to a frozen audio-only backbone and limits the role of visual modality strictly to target selection. We introduce the Latent Steering Matrix (LSM), a minimalist linear transformation that re-routes latent features within the backbone to anchor the target speaker to a designated channel. Experiments across four representative architectures show that our method effectively preserves the acoustic priors of diverse backbones, achieving perceptual quality comparable to the original backbones. Audio samples are available at: https://plugandsteer.github.io

研究の動機と目的

  • AV-TSE における分離とターゲット選択のデカップリングを動機づけ、ノイズの多モーダル監視から生じる忠実度の天井を回避する。
  • 凍結された音声のみのバックボーンが高品質な分離を提供でき、視覚情報はターゲット選択子としてのみ機能することを示す。
  • Latent Steering Matrix (LSM) を潜在特徴の最小限の線形再ルーティングとして提案し、ターゲットを指定チャンネルへアンカーする。
  • LSM と統合された軽量な視覚ステアリングモジュールを開発し、ゲートを学習して LSM を制御し安定したターゲット選択を実現する。
  • 提案アプローチが多様なバックボーンに渡って音響 priors を保持し、より強力な AO エンジンとともにスケールすることを示す。

提案手法

  • Latent Steering Matrix (LSM) を導入する:中間特徴 f_i に適用される残差線形変換 f_i'=(I+g·W)f_i により出力チャンネルを置換する。
  • 凍結された AOSS モデルに対して forced-swap の下で LSM を訓練し、出力を入れ替え、入れ替えたチャンネル間の SI-SNR の負の値を最小化する。
  • 音声特徴とリップ視覚埋め込みを連結してフレーム毎のゲート g_t を予測する視覚ステアリングモジュールを追加し、軽量な TCN によって g_t を介して LSM を制御する。
  • バックボーン出力をターゲット参照と一致させるように SI-SNR で最大化される疑似ラベルを用いてゲートを監視し、エンドツーエンドのルーティングを実現する BCE 損失と SI-SNR 損失を組み合わせる。
  • 内部ルーティングを LSE-based 後付け選択(LSE-C/LSE-D)と比較し、潜在特徴の再利用により計算量を削減し安定性を向上させる。

実験結果

リサーチクエスチョン

  • RQ1凍結された音声のみのバックボーン内の単純な線形潜在変換で話者識別を指定出力チャンネルへ再ルーティングできるか。
  • RQ2ターゲット選択を分離することが、ノイズのある音声-視覚データでの従来のファインチューニングより音響 priors をよりよく保持するか。
  • RQ3軽量な視覚ステアリングモジュールは LSM を効果的に制御して、アーキテクチャをまたいでターゲット話者を信頼性高く選択できるか。
  • RQ4Plug-and-Steer はより強力な音声のみバックボーンとドメイン適応シナリオと組み合わせるとどのようにスケールするか。
  • RQ5AV-TSE における内部ルーティングは後付けのリップシンク選択より効率的で安定しているか。

主な発見

  • LSM は高忠実度の分離を維持しつつ、小さな線形変換でターゲットルーティングを可能にする。
  • 最終層の LSM はバックボーン全体で最高の層別保存を達成(例:96.22% Conv-TasNet、99.67% DPRNN、99.91% TF-GridNet、99.43% MossFormer2)。
  • Plug-and-Steer with LSM は後付け手法より知覚品質を維持しつつターゲット選択を改善または同等にし、LSE ベースの後付けルーティングと比べて FLOPs を削減しリアルタイムファクターを改善。
  • 強力な AO バックボーン(高忠実データで事前学習した MossFormer2)と LSM の組み合わせは AV-TSE ベースラインに匹敵する SI-SDRi を達成しつつ知覚忠実度を保持。
  • ドメイン適応において LSM の性能は元の AO 結果に厳密にアンカーされ続け、分離品質が事前学習済み AO エンジンで定義されることを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。