Skip to main content
QUICK REVIEW

[论文解读] Input-Adaptive Spectral Feature Compression by Sequence Modeling for Source Separation

Kohei Saijo, Yoshiaki Bando|arXiv (Cornell University)|Feb 9, 2026
Speech and Audio Processing被引用 0
一句话总结

本文提出 Spectral Feature Compression (SFC),一种输入自适应、参数高效的替代 band-split (BS) 模块,用于在 TF-domain 的源分离中压缩频率信息,具有两个变体(SFC-CA 与 SFC-Mamba),在 MSS 与 CASS 任务上进行评估。

ABSTRACT

Time-frequency domain dual-path models have demonstrated strong performance and are widely used in source separation. Because their computational cost grows with the number of frequency bins, these models often use the band-split (BS) module in high-sampling-rate tasks such as music source separation (MSS) and cinematic audio source separation (CASS). The BS encoder compresses frequency information by encoding features for each predefined subband. It achieves effective compression by introducing an inductive bias that places greater emphasis on low-frequency parts. Despite its success, the BS module has two inherent limitations: (i) it is not input-adaptive, preventing the use of input-dependent information, and (ii) the parameter count is large, since each subband requires a dedicated module. To address these issues, we propose Spectral Feature Compression (SFC). SFC compresses the input using a single sequence modeling module, making it both input-adaptive and parameter-efficient. We investigate two variants of SFC, one based on cross-attention and the other on Mamba, and introduce inductive biases inspired by the BS module to make them suitable for frequency information compression. Experiments on MSS and CASS tasks demonstrate that the SFC module consistently outperforms the BS module across different separator sizes and compression ratios. We also provide an analysis showing that SFC adaptively captures frequency patterns from the input.

研究动机与目标

  • 在不牺牲准确性的前提下,降低 TF-domain 双路径源分离的计算成本。
  • 用单一序列建模模块替代输入无关的多子编码器 BS。
  • 设计两种 SFC 变体(跨注意力与基于 Mamba 的循环)并加入心理声学归纳偏置。
  • 证明 SFC 在参数效率和对输入频率模式的适应性方面优于 BS。

提出的方法

  • SFC 使用一个包含 K 个可学习查询的单一序列建模模块,对 TF spectrogram 进行编码。
  • 在 SFC-CA 中,通过在跨注意力中引入对频带敏感的位置信偏置来融入心理声学驱动的归纳偏置。
  • 在 SFC-Mamba 中,使用双向交错的 Mamba,并通过精心选择的查询插入策略来对带状信息施加强制性归纳偏置。
  • 编码器和解码器对称;QS(queries)机制实现自适应压缩,无需对每个带子编码器。
  • 带区配置遵循带有预定义 G_k 带的音乐音阶,以偏向低频处理。
  • 模型端到端训练,使用 TF-Locoformer 分离器,与 MSS 和 CASS 任务中的 BS 进行比较。

实验结果

研究问题

  • RQ1SFC 是否在不同的分离器规模(小/中)和压缩比下始终优于 BS?
  • RQ2归纳偏置(频率感知的位移偏置或查询插入策略)如何影响性能和感受野?
  • RQ3SFC 是否能通过注意力/权重分析自适应地捕捉输入频率模式?
  • RQ4与 BS 相比,SFC 变体是否需要更少的参数但保持或提升分离质量?

主要发现

  • SFC 在 MSS 和 CASS 任务中对不同分离器规模和压缩比均优于 BS 模块。
  • SFC 能自适应地从输入捕捉频率模式,注意力权重分析支持该结论。
  • SFC 以显著更少的参数实现与 BS 编码/解码器相当或更好的性能。
  • 存在两种可行变体:SFC-CA(带归纳偏置的跨注意力)和 SFC-Mamba(带交错与带基策略的循环结构)。
  • 受心理声学启发的基于带的归纳偏置(音乐音阶)对有效的光谱压缩至关重要。
  • 研究包括消融与可视化,支持 SFC 的自适应性与有效性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。