QUICK REVIEW

[논문 리뷰] Multi-Source Diffusion Models for Simultaneous Music Generation and Separation

Giorgio Mariani, Irene Tallini|arXiv (Cornell University)|2023. 02. 04.

Music and Audio Processing인용 수 9

한 줄 요약

확산 기반 모델(MSDM)이 여러 음악 소스의 공동 분포를 학습하여 하나의 프레임워크에서 전체 생성, 부분 생성(소스 임퓨테이션), 소스 분리를 가능하게 하며, 후방 샘플링을 위한 Dirac 우도를 사용한다.

ABSTRACT

In this work, we define a diffusion-based generative model capable of both music synthesis and source separation by learning the score of the joint probability density of sources sharing a context. Alongside the classic total inference tasks (i.e., generating a mixture, separating the sources), we also introduce and experiment on the partial generation task of source imputation, where we generate a subset of the sources given the others (e.g., play a piano track that goes well with the drums). Additionally, we introduce a novel inference method for the separation task based on Dirac likelihood functions. We train our model on Slakh2100, a standard dataset for musical source separation, provide qualitative results in the generation settings, and showcase competitive quantitative results in the source separation setting. Our method is the first example of a single model that can handle both generation and separation tasks, thus representing a step toward general audio models.

연구 동기 및 목표

맥락 소스(스템)의 공동 사전 p(x1,...,xN)를 학습하여 생성과 분리를 연결한다
하나의 모델에서 전체 생성, 부분 생성(소스 임퓨테이션), 그리고 분리를 가능하게 한다
향상된 분리를 위한 Dirac 우도 기반의 사후분포를 도입한다
생성 작업을 가능하게 하면서 Slakh2100에서 경쟁력 있는 분리 성능을 입증한다
약하게 감독되는 설정으로의 확장 및 일반 오디오 모델에 대한 실용적 시사점을 논의한다

제안 방법

스템에 대한 사전 p(x1,...,xN)을 학습하기 위해 노이즈 제거 점수 매칭 확산 프레임워크를 사용한다
x(t)를 가우시안 커널로 섞인 맥락 소스 집합으로 표현하고 ∇x(t)log p(x(t))를 근사하도록 Sθ(x(t),σ(t)) 점수 네트워크를 학습한다
훈련된 점수 네트워크를 사용하여 역방향 ODE dx(t)=σ(t)∇x(t)log p(x(t))dt를 풀어 작업을 추론한다
분리를 위한 사후 점수를 도출하기 위해 새로운 Dirac delta 기반 우도 p(y(t)|x(t))=1{y(t)=∑nxn(t)}를 도입한다( MS DM Dirac )
일부 소스 xI(t)에 조건화하고 나머지는 조건부 점수를 사용하여 임퓨트함으로써 부분 생성을 가능하게 한다
분리를 위한 사후 점수를 적분하는 샘플러(Algorithm 1)를 제공하고 약하게 감독되는 변형을 지원한다
Moûsai에서 영감을 받은 시간 도메인 U-Net 점수 모델을 사용하여 Slakh2100에서 4개의 스템(Bass, Drums, Guitar, Piano)으로 학습한다

실험 결과

연구 질문

RQ1하나의 확산 모델이 여러 음악 스템의 공동 분포를 학습하여 생성과 분리 모두를 지원할 수 있는가?
RQ2확산 사전 프레임워크 내에서 부분 생성(소스 임퓨테이션)을 어떻게 달성할 수 있는가?
RQ3Dirac 델타 기반 우도가 Gaussian 우도보다 분리를 위한 사후 조건화에 더 나은가?
RQ4표준 분리 벤치마크(예: Slakh2100)에서 MSDM Dirac 및 그 변형이 최신 기준선과 비교하여 얻는 정량적 이점은 무엇인가?
RQ5일부 소스가 알려져 있지만 전체 공동 맥락은 모르는 약하게 감독되는 설정에서 모델이 작동할 수 있는가?

주요 결과

모델	베이스	드럼	기타	피아노	전체
Demucs	15.77	19.44	15.30	13.92	16.11
Demucs + Gibbs (512 steps)	17.16	19.61	17.82	16.32	17.73
Dirac Likelihood
Weakly MSDM	18.44	20.19	13.34	13.25	16.30
Weakly MSDM (correction)	19.36	20.90	14.70	14.13	17.27
MSDM	16.21	17.47	12.71	13.29	14.92
MSDM (correction)	17.12	18.68	15.38	14.73	16.48
Gaussian Likelihood [21]
Weakly MSDM	13.48	18.09	11.93	11.17	13.67
Weakly MSDM (correction)	14.27	19.10	12.74	12.20	14.58
MSDM	12.53	16.82	12.98	9.29	12.90
MSDM (correction)	13.93	17.92	14.19	12.11	14.54

MSDM은 맥락에 대한 단일 학습된 사전으로 전체 생성, 부분 생성, 그리고 소스 분리를 수행할 수 있다.
MSDM Dirac는 일반적으로 Gaussian 우도 변형 및 경쟁적 기준선보다 SI-SDRi를 스템별 평균 기준으로 상회하며, 특히 보정(step)에서 두드러진다.
약하게 감독되는 MSDM Dirac 및 그 보정 변형은 Bass와 Drums 스템에서 강력한 성과를 달성하며 때로는 Demucs 기반 기준선을 능가한다.
이 접근 방식은 기존의 구분 모델이 다루지 않는 보완적 생성 작업을 가능하게 하면서도 경쟁력 있는 분리 성능을 제공한다.
Dirac 기반 조건화는 확장된 Gaussian 우도에 대한 의존도를 줄이고 제로 분산 조건화 극한을 통해 사후를 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.