[논문 리뷰] Separate And Diffuse: Using a Pretrained Diffusion Model for Improving Source Separation
이 논문은 결정론적 소스 분리 모델의 출력에 사전 학습된 확산 기반 보코더를 적용하면 다중 화자 음성 분리 성능이 향상되고, 스펙트럼 영역에서 결정적 출력과 생성적 출력을 선형 결합함으로써 몇몇 경우에 결정적 상한선을 넘어서는 최첨단 결과를 달성한다는 것을 보여준다.
The problem of speech separation, also known as the cocktail party problem, refers to the task of isolating a single speech signal from a mixture of speech signals. Previous work on source separation derived an upper bound for the source separation task in the domain of human speech. This bound is derived for deterministic models. Recent advancements in generative models challenge this bound. We show how the upper bound can be generalized to the case of random generative models. Applying a diffusion model Vocoder that was pretrained to model single-speaker voices on the output of a deterministic separation model leads to state-of-the-art separation results. It is shown that this requires one to combine the output of the separation model with that of the diffusion model. In our method, a linear combination is performed, in the frequency domain, using weights that are inferred by a learned model. We show state-of-the-art results on 2, 3, 5, 10, and 20 speakers on multiple benchmarks. In particular, for two speakers, our method is able to surpass what was previously considered the upper performance bound.
연구 동기 및 목표
- 비결정적 생성 모델을 사용할 때의 음성 분리에 대한 상한선을 동기 부여하고 형식화한다.
- 사전 학습된 확산 보코더가 결정적 출력과 결합될 때 분리를 개선할 수 있음을 시연한다.
- 하이브리드 결정적-생성 파이프라인에 대한 상호 정보량 및 SDR의 이론적 경계(bounds)를 도출한다.
- 결정적 추정치와 생성적 추정치를 결합하기 위한 학습 가능한 스펙트럼 도메인 융합을 제안한다.
- LibriSpeech와 WSJ0에서 2, 3, 5, 10, 20명의 화자에 대해 실증적으로 향상을 검증한다.
제안 방법
- 음성 혼합에 백본 분리기 B를 적용하여 각 소스에 대해 다수의 추정값 ○vd\u0000e9\u001fv×를 얻는다.
- 각 ○vd\u0000e9\u001fv를 사전 학습된 확산 보코더 GM에 통과시켜 각 소스에 대해 ○vg\u0000e9\u001fv를 얻는다.
- 둘 다를 멜 스펙트로그램으로 변환하고 크기와 위상을 연결하여 학습된 정렬 네트워크 F의 입력으로 사용한다.
- 복소 혼합 가중치 [\u000b5, \u000b7]를 F를 통해 계산하고 최종 스펙트럼 추정치를 V = \u000b5 \u001d\u001d Vd + \u000b7 \u001d\u001d Vg로 형성한 다음 역 STFT를 적용하여 시간 영역 신호를 얻는다.
- 상응성을 위한 Hungarian 할당과 SI-SDR을 목적 함수로 하여 정렬 네트워크 F만 학습한다.
- DiffWave를 LibriMix/WSJ0의 단일 화자 데이터에서 사전 학습된 GM으로 사용하고, B는 공개 모델들(Gated-LSTM 또는 SepFormer 등)에서 가져온다.
실험 결과
연구 질문
- RQ1사전 학습된 확산 모델이 결정론적 소스 분리를 개선하기 위한 후처리 사전(prior)로 작용할 수 있는가?
- RQ2결정적 및 생성적 추정치를 결합할 때 달성 가능한 최대 개선을 지배하는 이론적 경계는 무엇인가?
- RQ3스펙트럼 도메인에서 융합 가중치를 학습하는 것이 휴리스틱 위상 정렬 방법보다 성능이 우수한가?
- RQ4표준 벤치마크에서 화자 수(2–20)에 따라 이 접근 방식의 확장성은 어떠한가?
- RQ5비결정적 생성 구성 요소를 사용해 결정적 모델의 클래식 상한선을 넘어설 수 있는가?
주요 결과
| 방법 | WSJ0 2Mix | WSJ0 3Mix | LibriSpeech 2Mix | LibriSpeech 5Mix | LibriSpeech 10Mix | LibriSpeech 20Mix |
|---|---|---|---|---|---|---|
| Classical Upper Bound (Lutati et al.) | 23.1 | 21.2 | 23.1 | 14.5 | 12.0 | 8.0 |
| Generative Upper Bound (ours) | 26.1 | 24.2 | 26.1 | 17.5 | 15.0 | 11.0 |
| DiffSep [27] | 14.3 | - | - | - | - | - |
| SepIt [22] | 22.4 | 20.1 | - | 13.7 | 8.2 | - |
| SepFormer [30] | 22.3 | 19.8 | 20.6 | - | - | - |
| SepFormer + HiFiGAN [13] | 22.3 | 20.0 | - | - | - | - |
| SepFormer + DiffWave -F (ablation) | 22.6 | 20.3 | 20.8 | - | - | - |
| SepFormer + DiffWave (ours) | 23.9 | 20.9 | 21.5 | - | - | - |
| Gated LSTM [24] | 20.1 | 16.9 | - | 12.7 | 7.7 | 4.3 |
| Gated LSTM + DiffWave -F (ablation) | - ∗ | - ∗ | - | 13.0 | 8.1 | 4.5 |
| Gated LSTM + DiffWave (ours) | - ∗ | - ∗ | - | 14.2 | 9.0 | 5.2 |
- 결정적 분리기의 출력에 확산 기반 보코더를 적용하면 2, 3, 5, 10, 20 화자에서 최첨단 SI-SDR 개선을 달성한다.
- 두 화자에 대해서는 이 방법이 결정적 모델의 기존 상한선을 넘어선다.
- 학습된 스펙트럼 도메인 융합(F를 통해)은 휴리스틱 위상 정렬 방법 및 단순 평균보다 우수하다.
- WSJ0와 LibriSpeech 벤치마크에서 제시된 설정에서 SDR 관련 최대 3 dB의 이득을 달성한다.
- 제안된 경계는 타당한 가정하에 결정적 상한선을 넘어서 최대 3 dB의 개선이 가능하다고 시사한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.