QUICK REVIEW

[論文レビュー] Adaptive Rotary Steering with Joint Autoregression for Robust Extraction of Closely Moving Speakers in Dynamic Scenarios

Jakob Kienegger, Timo Gerkmann|arXiv (Cornell University)|Jan 18, 2026

Speech and Audio Processing被引用数 0

ひとこと要約

この論文はAmbisonicsベースのターゲットスピーカー抽出におけるロータリ steering を動的シナリオへ拡張し、処理済み音声をガイダンスとして用いる共同自己回帰フレームワークを導入することで、近接し移動するスピーカーの追跡と強化を改善する。

ABSTRACT

Latest advances in deep spatial filtering for Ambisonics demonstrate strong performance in stationary multi-speaker scenarios by rotating the sound field toward a target speaker prior to multi-channel enhancement. For applicability in dynamic acoustic conditions with moving speakers, we propose to automate this rotary steering using an interleaved tracking algorithm conditioned on the target's initial direction. However, for nearby or crossing speakers, robust tracking becomes difficult and spatial cues less effective for enhancement. By incorporating the processed recording as additional guide into both algorithms, our novel joint autoregressive framework leverages temporal-spectral correlations of speech to resolve spatially challenging speaker constellations. Consequently, our proposed method significantly improves tracking and enhancement of closely spaced speakers, consistently outperforming comparable non-autoregressive methods on a synthetic dataset. Real-world recordings complement these findings in complex scenarios with multiple speaker crossings and varying speaker-to-array distances.

研究の動機と目的

ダイナミックで多人環境におけるターゲットスピーカー抽出（TSE）の堅牢性をAmbisonicsで動機づける。
アレイを変更せず移動対象の音場を中心にするためにロータリ steeringを活用する。
強化信号を案内として追従と強化の両方を条件付ける共同自己回帰フレームワークを導入する。
テンポラル-スペクトル自己回帰が近接または交差するスピーカーに対して性能を向上させることを示す。
異なる空間フィルタリングアーキテクチャ間の一般化可能性を示し、合成データと実世界の録音で検証する。

提案手法

ターゲットDoA（theta_t, phi_t）に合わせて時変Wigner-D行列D_tを用いて静的から動的シナリオへロータリ steeringを一般化する。
処理をターゲットの初期方向（theta_0, phi_0）に中心化し、追跡のための角度偏差を推定して弱いガイド付きアプローチを維持する。
以前に強化された信号S_hat_{t-1}を空間フィルタ（AR-SSF）への追加入力として、追跡モジュール（AR-TST）にも入力することにより自己回帰強化経路を統合する。
AR手掛かりをロータリ steeringと統一し、追跡と強化の両方が音声の時系列スペクトル相関により条件付けされるようにする。
SSFsとTSTを別々の最適化子で同時の前方伝播パスで訓練するデュアル最適化トレーニング戦略を用いる。

実験結果

リサーチクエスチョン

RQ1適応的ロータリ steeringは、動的シナリオにおいて近接して動くスピーカーの追跡と抽出を固定 steering より改善できるか。
RQ2自己回帰済み処理音声ガイダンスを追加することで、動くスピーカーの追跡（DoA）と抽出（SSF）の性能にどのような影響があるか。
RQ3ジョイント自己回帰（AR）手掛かりは、異なる空間フィルタリングアーキテクチャ（McNet、SpatialNet）や追跡手法に一貫した利点を提供するか。
RQ4提案手法は、合成の三人 speaker データから、スピーカーの交差と距離変化を含む実世界の録音へどの程度一般化できるか。

主な発見

共同自己回帰フレームワークは、試験済みアーキテクチャ全体で近接して動くスピーカーの追跡と抽出の両方を改善する。
AR統合はAR-SSFおよびAR-TSTの両方で非ARアプローチに対して顕著な改善をもたらし、特にスピーカーが近いまたは交差している場合に効果が大きい。
このアプローチは、モデルの複雑さと計算量を最小限に抑えつつ堅牢な強化を維持する。
実世界の録音では、適応的ロータリ steeringと自己回帰ガイダンスを用いた場合に知覚品質と聴取可能性の向上が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。