[论文解读] SLICE: Speech Enhancement via Layer-wise Injection of Conditioning Embeddings
SLICE 通过逐层时间步嵌入在每个残差块中引入降解条件,使用多任务 WavLM 编码器实现鲁棒的多降级语音增强。
Real-world speech is often corrupted by multiple degradations simultaneously, including additive noise, reverberation, and nonlinear distortion. Diffusion-based enhancement methods perform well on single degradations but struggle with compound corruptions. Prior noise-aware approaches inject conditioning at the input layer only, which can degrade performance below that of an unconditioned model. To address this, we propose injecting degradation conditioning, derived from a pretrained encoder with multi-task heads for noise type, reverberation, and distortion, into the timestep embedding so that it propagates through all residual blocks without architectural changes. In controlled experiments where only the injection method varies, input-level conditioning performs worse than no encoder at all on compound degradations, while layer-wise injection achieves the best results. The method also generalizes to diverse real-world recordings.
研究动机与目标
- 在现实世界的多降级条件(噪声、混响和失真)下,推动鲁棒语音增强的动机。
- 提出一种能在不改变结构的情况下传播到所有网络层的条件化策略。
- 利用预训练编码器生成解耦的降级表示以用于条件化。
提出的方法
- 用基于 WavLM 的降级感知编码器扩展 SGMSE+,输出固定大小的降级向量 h。
- 采用三个专门的头(噪声分类、混响 T60 回归、失真强度)及多任务辅助损失。
- 将 h 投影到每个分支的嵌入,并将它们连接形成 c_extra,再加到时间步嵌入 e_t(逐层条件化)。
- 将 c_extra 注入时间步嵌入,使所有残差块接收条件信息(无架构改动)。
- 使用组合的分数匹配损失和辅助损失进行训练;在训练时通过随机丢弃条件分支实现无条件引导。
实验结果
研究问题
- RQ1相比输入层条件,在扩散式语音增强中逐层条件化是否更有效传播降级信息?
- RQ2与单任务或无编码器基线相比,多任务降级编码器是否提升对复合降级(噪声+混响+失真)的鲁棒性?
- RQ3所提出的条件化方案在现实世界的实地录音中的泛化能力如何?
主要发现
- 逐层条件化在多降级数据上显著优于输入层条件化和无编码器基线的性能。
- 在多降级数据上,采用逐层注入的 ESTOI 提升至 0.80,SI-SDR 提升至 3.7 dB,优于其他设置。
- 具有多任务辅助损失的编码器能够产生良好校准的降级表示(噪声准确率 96.7%,T60 相关性 0.981,失真相关性 0.845)。
- 在仅噪声数据上,SLICE 在基线中获得最高的 UTMOS,指示出强感知质量。
- 野外测试显示与真实世界数据集的 PESQ/ESTOI 相当,SLICE 和无编码器变体在比对的预训练仅噪声基线上表现优越。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。