[论文解读] Separate And Diffuse: Using a Pretrained Diffusion Model for Improving Source Separation
该论文显示将预训练的扩散基声码器应用于确定性源分离模型的输出,可以在多说话人语音分离方面取得改进,达到最先进的结果,在某些情况下通过在频域线性组合确定性和生成输出甚至超越确定性上界。
The problem of speech separation, also known as the cocktail party problem, refers to the task of isolating a single speech signal from a mixture of speech signals. Previous work on source separation derived an upper bound for the source separation task in the domain of human speech. This bound is derived for deterministic models. Recent advancements in generative models challenge this bound. We show how the upper bound can be generalized to the case of random generative models. Applying a diffusion model Vocoder that was pretrained to model single-speaker voices on the output of a deterministic separation model leads to state-of-the-art separation results. It is shown that this requires one to combine the output of the separation model with that of the diffusion model. In our method, a linear combination is performed, in the frequency domain, using weights that are inferred by a learned model. We show state-of-the-art results on 2, 3, 5, 10, and 20 speakers on multiple benchmarks. In particular, for two speakers, our method is able to surpass what was previously considered the upper performance bound.
研究动机与目标
- 激励并形式化在使用非确定性生成模型时语音分离的上界。
- 证明将预训练的扩散声码器与确定性输出结合时可提高分离效果。
- 推导混合确定性-生成管道中的互 information 和 SDR 的理论界限。
- 提出一种可学习的频谱域融合,以结合确定性和生成估计。
- 在 LibriSpeech 和 WSJ0 上对 2、3、5、10 和 20 名说话人的情况进行实证验证。
提出的方法
- 对语音混合应用骨干分离器 B 以获得每个源的多个估计 vd\u0000e9\u001fv imes 。
- 将每个 vd\u0000e9\u001fv 输入到预训练的扩散声码器 GM 以为每个源得到 vg\u0000e9\u001fv 。
- 将两者 vd\u0000e9\u001fv 与 vg\u0000e9\u001fv 转换为 Mel 频谱图,并将幅度和相位拼接为输入供学习的对齐网络 F 使用。
- 通过 F 计算复合混合权重 [\u000b5, \u000b7],将最终的频域估计表示为 V = \u000b5 \u001d\u001d Vd + \u000b7 \u001d\u001d Vg,然后进行反 STFT 以获得时域信号。
- 仅训练对齐网络 F,以匈牙利分配进行对应并以 SI-SDR 作为目标。
- 使用 DiffWave 作为在单说话人数据(LibriMix/WSJ0)上预训练的 GM,且 B 来自已发表的模型(例如 Gated-LSTM 或 SepFormer)。
实验结果
研究问题
- RQ1预训练的扩散模型能否作为后处理先验来提升确定性源分离?
- RQ2在结合确定性与生成估计时,哪些理论界限支配可实现的最大改进?
- RQ3在频谱域学习融合权重是否优于启发式相位对齐方法?
- RQ4在标准基准测试中,该方法随说话人数(2–20)的扩展性如何?
- RQ5是否可能利用非确定性生成组件超越确定性模型的经典上界?
主要发现
| 方法 | WSJ0 2Mix | WSJ0 3Mix | LibriSpeech 2Mix | LibriSpeech 5Mix | LibriSpeech 10Mix | LibriSpeech 20Mix |
|---|---|---|---|---|---|---|
| Classical Upper Bound (Lutati et al.) | 23.1 | 21.2 | 23.1 | 14.5 | 12.0 | 8.0 |
| Generative Upper Bound (ours) | 26.1 | 24.2 | 26.1 | 17.5 | 15.0 | 11.0 |
| DiffSep [27] | 14.3 | - | - | - | - | - |
| SepIt [22] | 22.4 | 20.1 | - | 13.7 | 8.2 | - |
| SepFormer [30] | 22.3 | 19.8 | 20.6 | - | - | - |
| SepFormer + HiFiGAN [13] | 22.3 | 20.0 | - | - | - | - |
| SepFormer + DiffWave -F (ablation) | 22.6 | 20.3 | 20.8 | - | - | - |
| SepFormer + DiffWave (ours) | 23.9 | 20.9 | 21.5 | - | - | - |
| Gated LSTM [24] | 20.1 | 16.9 | - | 12.7 | 7.7 | 4.3 |
| Gated LSTM + DiffWave -F (ablation) | - ∗ | - ∗ | - | 13.0 | 8.1 | 4.5 |
| Gated LSTM + DiffWave (ours) | - ∗ | - ∗ | - | 14.2 | 9.0 | 5.2 |
- 将扩散基声码器应用于确定性分离器的输出,在 2、3、5、10、20 名说话人上实现最先进的 SI-SDR 提升。
- 对于两个说话人,该方法超过了先前建立的确定性模型上界。
- 通过 F 学习得到的频谱域融合优于启发式相位对齐方法和简单求平均。
- 在 WSJ0 与 LibriSpeech 基准测试中,在所给设置下该方法达到最多 3 dB 的 SDR 相关增益。
- 所提出的界限表明在合理假设下,超出确定性上界的改进最多为 3 dB。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。