Skip to main content
QUICK REVIEW

[论文解读] Training-Free Multi-Step Inference for Target Speaker Extraction

Zhenghai You, Ying Shi|arXiv (Cornell University)|Mar 11, 2026
Speech Recognition and Synthesis被引用 0
一句话总结

该论文提出一个无训练的多步推理框架,通过在混合信号和先前估计之间进行插值、使用冻结模型,在联合非侵入式质量和说话人相似度评分的引导下,细化目标说话人提取。

ABSTRACT

Target speaker extraction (TSE) aims to recover a target speaker's speech from a mixture using a reference utterance as a cue. Most TSE systems adopt conditional auto-encoder architectures with one-step inference. Inspired by test-time scaling, we propose a training-free multi-step inference method that enables iterative refinement with a frozen pretrained model. At each step, new candidates are generated by interpolating the original mixture and the previous estimate, and the best candidate is selected for further refinement until convergence. Experiments show that, when ground-truth target speech is available, optimizing an intrusive metric (SI-SDRi) yields consistent gains across multiple evaluation metrics. Without ground truth, optimizing non-intrusive metrics (UTMOS or SpkSim) improves the corresponding metric but may hurt others. We therefore introduce joint metric optimization to balance these objectives, enabling controllable extraction preferences for practical deployment.

研究动机与目标

  • 在存在参考信号的多说话人场景中激励目标说话人提取(TSE)
  • 提出一个在测试时使用冻结的TSE模型的无训练、迭代式细化过程
  • 通过一个联合评分函数在不重训练的情况下在感知质量与目标说话人一致性之间取得平衡
  • 在多个骨干网络上展示对单步推理的提升并分析该方法的可靠性

提出的方法

  • 使用冻结的预训练TSE模型通过在混合信号与当前估计之间进行插值来生成多个候选输入
  • 用同一冻结模型计算候选输出,并使用评分函数R在每次迭代中选择最佳候选
  • 选项1:使用观测SI-SDRi作为选择器以建立上限潜力
  • 选项2:可部署的选择器使用非侵入指标如UTMOS和SpkSim,并结合两者的联合分数(等式5)
  • 提供对非降性质和误差界的分析以确保贪婪选择的可靠性

实验结果

研究问题

  • RQ1推理时通过基于插值的候选项进行搜索是否可以在不重训练的情况下改进TSE?
  • RQ2可部署的非侵入式度量(UTMOS、SpkSim)在引导多步细化方面的表现如何?
  • RQ3在感知质量与说话人相似度之间的联合度量是否比单一指标提供更稳定的改进?
  • RQ4在训练无设定下,当评分不完美时贪婪选择的可靠性如何?

主要发现

  • 观测SI-SDRi(oracle)选择对两种骨干网络(DPRNN和SpEx+)在单步推理上的提升具有一致性
  • 可部署的选择器在各自的指标上显示出改进,但在优化单一代理时存在明显权衡
  • 联合评分(UTMOS + SpkSim)在两种骨干网络上实现了对感知质量与目标说话人一致性的更平衡改进
  • SpEx+在更深的多步细化中受益更大,而DPRNN在前几步就已显现收益,体现骨干网络的动态差异
  • 在所选选择器下,该方法相对于初始单步输出表现出非降性质,并在选择器不完善时提供了可解释的稳定性界限

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。