Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Source Diffusion Models for Simultaneous Music Generation and Separation

Giorgio Mariani, Irene Tallini|arXiv (Cornell University)|2023. 02. 04.
Music and Audio Processing인용 수 9
한 줄 요약

확산 기반 모델(MSDM)이 여러 음악 소스의 공동 분포를 학습하여 하나의 프레임워크에서 전체 생성, 부분 생성(소스 임퓨테이션), 소스 분리를 가능하게 하며, 후방 샘플링을 위한 Dirac 우도를 사용한다.

ABSTRACT

In this work, we define a diffusion-based generative model capable of both music synthesis and source separation by learning the score of the joint probability density of sources sharing a context. Alongside the classic total inference tasks (i.e., generating a mixture, separating the sources), we also introduce and experiment on the partial generation task of source imputation, where we generate a subset of the sources given the others (e.g., play a piano track that goes well with the drums). Additionally, we introduce a novel inference method for the separation task based on Dirac likelihood functions. We train our model on Slakh2100, a standard dataset for musical source separation, provide qualitative results in the generation settings, and showcase competitive quantitative results in the source separation setting. Our method is the first example of a single model that can handle both generation and separation tasks, thus representing a step toward general audio models.

연구 동기 및 목표

  • 맥락 소스(스템)의 공동 사전 p(x1,...,xN)를 학습하여 생성과 분리를 연결한다
  • 하나의 모델에서 전체 생성, 부분 생성(소스 임퓨테이션), 그리고 분리를 가능하게 한다
  • 향상된 분리를 위한 Dirac 우도 기반의 사후분포를 도입한다
  • 생성 작업을 가능하게 하면서 Slakh2100에서 경쟁력 있는 분리 성능을 입증한다
  • 약하게 감독되는 설정으로의 확장 및 일반 오디오 모델에 대한 실용적 시사점을 논의한다

제안 방법

  • 스템에 대한 사전 p(x1,...,xN)을 학습하기 위해 노이즈 제거 점수 매칭 확산 프레임워크를 사용한다
  • x(t)를 가우시안 커널로 섞인 맥락 소스 집합으로 표현하고 ∇x(t)log p(x(t))를 근사하도록 Sθ(x(t),σ(t)) 점수 네트워크를 학습한다
  • 훈련된 점수 네트워크를 사용하여 역방향 ODE dx(t)=σ(t)∇x(t)log p(x(t))dt를 풀어 작업을 추론한다
  • 분리를 위한 사후 점수를 도출하기 위해 새로운 Dirac delta 기반 우도 p(y(t)|x(t))=1{y(t)=∑nxn(t)}를 도입한다( MS DM Dirac )
  • 일부 소스 xI(t)에 조건화하고 나머지는 조건부 점수를 사용하여 임퓨트함으로써 부분 생성을 가능하게 한다
  • 분리를 위한 사후 점수를 적분하는 샘플러(Algorithm 1)를 제공하고 약하게 감독되는 변형을 지원한다
  • Moûsai에서 영감을 받은 시간 도메인 U-Net 점수 모델을 사용하여 Slakh2100에서 4개의 스템(Bass, Drums, Guitar, Piano)으로 학습한다

실험 결과

연구 질문

  • RQ1하나의 확산 모델이 여러 음악 스템의 공동 분포를 학습하여 생성과 분리 모두를 지원할 수 있는가?
  • RQ2확산 사전 프레임워크 내에서 부분 생성(소스 임퓨테이션)을 어떻게 달성할 수 있는가?
  • RQ3Dirac 델타 기반 우도가 Gaussian 우도보다 분리를 위한 사후 조건화에 더 나은가?
  • RQ4표준 분리 벤치마크(예: Slakh2100)에서 MSDM Dirac 및 그 변형이 최신 기준선과 비교하여 얻는 정량적 이점은 무엇인가?
  • RQ5일부 소스가 알려져 있지만 전체 공동 맥락은 모르는 약하게 감독되는 설정에서 모델이 작동할 수 있는가?

주요 결과

모델베이스드럼기타피아노전체
Demucs15.7719.4415.3013.9216.11
Demucs + Gibbs (512 steps)17.1619.6117.8216.3217.73
Dirac Likelihood
Weakly MSDM18.4420.1913.3413.2516.30
Weakly MSDM (correction)19.3620.9014.7014.1317.27
MSDM16.2117.4712.7113.2914.92
MSDM (correction)17.1218.6815.3814.7316.48
Gaussian Likelihood [21]
Weakly MSDM13.4818.0911.9311.1713.67
Weakly MSDM (correction)14.2719.1012.7412.2014.58
MSDM12.5316.8212.989.2912.90
MSDM (correction)13.9317.9214.1912.1114.54
  • MSDM은 맥락에 대한 단일 학습된 사전으로 전체 생성, 부분 생성, 그리고 소스 분리를 수행할 수 있다.
  • MSDM Dirac는 일반적으로 Gaussian 우도 변형 및 경쟁적 기준선보다 SI-SDRi를 스템별 평균 기준으로 상회하며, 특히 보정(step)에서 두드러진다.
  • 약하게 감독되는 MSDM Dirac 및 그 보정 변형은 Bass와 Drums 스템에서 강력한 성과를 달성하며 때로는 Demucs 기반 기준선을 능가한다.
  • 이 접근 방식은 기존의 구분 모델이 다루지 않는 보완적 생성 작업을 가능하게 하면서도 경쟁력 있는 분리 성능을 제공한다.
  • Dirac 기반 조건화는 확장된 Gaussian 우도에 대한 의존도를 줄이고 제로 분산 조건화 극한을 통해 사후를 강화한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.