Skip to main content
QUICK REVIEW

[论文解读] Plug-and-Steer: Decoupling Separation and Selection in Audio-Visual Target Speaker Extraction

Doyeop Kwak, Suyeon Lee|arXiv (Cornell University)|Mar 20, 2026
Speech and Audio Processing被引用 0
一句话总结

一个框架在音频单模态分离骨架上进行冻结,并使用潜在引导矩阵(Latent Steering Matrix, LSM)加上视觉引导模块来实现目标选择与分离的解耦,在AV-TSE中在保持高保真声学先验的同时,通过潜在特征实现目标路由。

ABSTRACT

The goal of this paper is to provide a new perspective on audio-visual target speaker extraction (AV-TSE) by decoupling the separation and target selection. Conventional AV-TSE systems typically integrate audio and visual features deeply to re-learn the entire separation process, which can act as a fidelity ceiling due to the noisy nature of in-the-wild audio-visual datasets. To address this, we propose Plug-and-Steer, which assigns high-fidelity separation to a frozen audio-only backbone and limits the role of visual modality strictly to target selection. We introduce the Latent Steering Matrix (LSM), a minimalist linear transformation that re-routes latent features within the backbone to anchor the target speaker to a designated channel. Experiments across four representative architectures show that our method effectively preserves the acoustic priors of diverse backbones, achieving perceptual quality comparable to the original backbones. Audio samples are available at: https://plugandsteer.github.io

研究动机与目标

  • 推动AV-TSE中分离与目标选择解耦,避免来自嘈杂多模态监督的保真度上限。
  • 证明冻结的音频单模骨架仍可提供高质量分离,而视觉仅作为目标选择器。
  • 提出Latent Steering Matrix (LSM)作为潜在特征的最小线性再路由,以将目标锚定到指定通道。
  • 开发一个轻量级的视觉引导模块,学习一个门控g来控制LSM并实现稳定目标选择。
  • 证明所提出的方法在不同骨架上保留声学先验,且可与更强的AO引擎协同扩展。

提出的方法

  • 引入 Latent Steering Matrix (LSM):对中间特征应用残差线性变换 f_i'=(I+g·W)f_i,以置换输出通道。
  • 在强制交换的情况下对冻结的 AOSS 模型训练 LSM,以交换输出并在被交换的通道上最小化负的 SI-SNR。
  • 增加一个视觉引导模块,从连接的音频特征与唇部视觉嵌入中预测逐帧门控 g_t,通过一个轻量级的 TCN 来控制通过 g_t 的 LSM。
  • 通过伪标签对门控进行监督,使在将骨架输出重新排序以匹配目标参考时最大化 SI-SNR,并将 BCE 损失与 SI-SNR 损失结合用于端到端路由。
  • 将内部路由与基于后验唇语同步的选择(LSE-C/LSE-D)进行比较,显示路由重用潜在特征以降低计算量并提升稳定性。

实验结果

研究问题

  • RQ1一个简单线性潜在变换在冻结的音频单模骨架内是否能将说话人身份重新路由到指定输出通道?
  • RQ2将目标选择与分离解耦是否比在嘈杂音视频数据上进行传统微调更好地保留声学先验?
  • RQ3一个轻量级的视觉引导模块是否能有效控制 LSM,在不同体系结构中可靠地选择目标说话人?
  • RQ4当与更强的音频单模骨架及领域自适应场景配对时,Plug-and-Steer 的扩展性如何?
  • RQ5在AV-TSE中,内部路由是否比事后基于唇语同步的选择更高效且更稳定?

主要发现

  • LSM 通过一个小的线性变换实现目标路由,同时保留高保真分离。
  • Final-layer LSM 在不同骨架上的层级保真度最高(例如,96.22% Conv-TasNet,99.67% DPRNN,99.91% TF-GridNet,99.43% MossFormer2)。
  • 带有 LSM 的 Plug-and-Steer 在保持感知质量的同时实现目标选择,优于或等同于事后方法,且相比基于 LSE 的事后路由具有较低的 FLOPs 和更快的实时因子。
  • 使用强大的 AO 骨架(在高保真数据上预训练的 MossFormer2)配合 LSM,SI-SDRi 可与 AV-TSE 基线相当,同时保留感知保真度。
  • 领域自适应表明 LSM 的性能仍紧密锚定于原始 AO 结果,表明分离质量由预训练的 AO 引擎决定。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。