[论文解读] Multi-Source Diffusion Models for Simultaneous Music Generation and Separation
基于扩散的模型(MSDM)学习多种音乐源的联合分布,以实现单框架下的完全生成、部分生成(源推断)和源分离,使用 Dirac 似然进行后验采样。
In this work, we define a diffusion-based generative model capable of both music synthesis and source separation by learning the score of the joint probability density of sources sharing a context. Alongside the classic total inference tasks (i.e., generating a mixture, separating the sources), we also introduce and experiment on the partial generation task of source imputation, where we generate a subset of the sources given the others (e.g., play a piano track that goes well with the drums). Additionally, we introduce a novel inference method for the separation task based on Dirac likelihood functions. We train our model on Slakh2100, a standard dataset for musical source separation, provide qualitative results in the generation settings, and showcase competitive quantitative results in the source separation setting. Our method is the first example of a single model that can handle both generation and separation tasks, thus representing a step toward general audio models.
研究动机与目标
- 通过学习上下文源(音轨)的联合先验 p(x1,...,xN) 来实现生成与分离的桥接
- 在单一模型中实现完全生成、部分生成(源推断)和分离
- 引入基于 Dirac-likelihood 的后验以改进分离
- 在 Slakh2100 上展示具有竞争力的分离结果,同时实现生成任务
- 讨论对弱监督设置的扩展及对通用音频模型的实际含义
提出的方法
- 使用去噪评分匹配扩散框架来学习关于音轨的先验 p(x1,...,xN)
- 将 x(t) 表示为被高斯核扰动的源的上下文集合,并训练一个评分网络 Sθ(x(t),σ(t)) 以近似 ∇x(t)log p(x(t))
- 通过求解后向 ODE dx(t)=σ(t)∇x(t)log p(x(t))dt,使用训练好的评分网络来推断任务
- 引入新颖的基于 Dirac Delta 的似然 p(y(t)|x(t))=1{y(t)=∑nxn(t)} 以推导用于分离的后验评分(MSDM Dirac)
- 通过对子集源 xI(t) 条件化并使用条件评分推断其余部分以实现部分生成
- 提供一个采样器(Algorithm 1),它积分后验评分用于分离并支持弱监督变体
- 在 Slakh2100 上使用 4 个音轨(Bass, Drums, Guitar, Piano)进行训练,采用受 Moûsai 启发的时域 U-Net 评分模型
实验结果
研究问题
- RQ1单个扩散模型是否能够学习多音轨的联合分布,以同时支持生成和分离?
- RQ2如何在扩散先验框架内实现部分生成(源推断)?
- RQ3基于 Dirac Delta 的似然是否提供比高斯似然更好的后验条件化以实现分离?
- RQ4相比最先进基线,MSDM Dirac 及其变体在标准分离基准(如 Slakh2100)上的定量增益是多少?
- RQ5模型是否能够在部分已知源但非完整联合上下文的弱监督设置中运行?
主要发现
| 模型 | 贝斯 | 鼓组 | 吉他 | 钢琴 | 合计 |
|---|---|---|---|---|---|
| Demucs | 15.77 | 19.44 | 15.30 | 13.92 | 16.11 |
| Demucs + Gibbs (512 steps) | 17.16 | 19.61 | 17.82 | 16.32 | 17.73 |
| Dirac Likelihood | |||||
| Weakly MSDM | 18.44 | 20.19 | 13.34 | 13.25 | 16.30 |
| Weakly MSDM (correction) | 19.36 | 20.90 | 14.70 | 14.13 | 17.27 |
| MSDM | 16.21 | 17.47 | 12.71 | 13.29 | 14.92 |
| MSDM (correction) | 17.12 | 18.68 | 15.38 | 14.73 | 16.48 |
| Gaussian Likelihood [21] | |||||
| Weakly MSDM | 13.48 | 18.09 | 11.93 | 11.17 | 13.67 |
| Weakly MSDM (correction) | 14.27 | 19.10 | 12.74 | 12.20 | 14.58 |
| MSDM | 12.53 | 16.82 | 12.98 | 9.29 | 12.90 |
| MSDM (correction) | 13.93 | 17.92 | 14.19 | 12.11 | 14.54 |
- MSDM 可以在单一对上下文的学习先验下,执行完全生成、部分生成和源分离。
- MSDM Dirac 通常优于高斯似然变体及竞争基线,在对音轨求取 SI-SDRi 的平均值上,特别是在校正步骤时。
- Weakly MSDM Dirac及其校正变体在 Bass 与 Drums 音轨上取得了强劲结果,有时甚至优于基于 Demucs 的基线。
- 该方法在提供竞争性分离性能的同时,还实现了传统辨别式分离模型未覆盖的补充生成任务。
- 基于 Dirac 的条件化降低对膨胀高斯似然的依赖,并通过零方差条件化极限来收紧后验。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。