[논문 리뷰] KUIELab-MDX-Net: A Two-Stream Neural Network for Music Demixing
KUIELab-MDX-Net은 시간-주파수 분기와 시간 도메인 분기를 가진 두 흐름 음악 분리 모델을 제안하고, 두 출력의 조합으로 MDX 2021 벤치마크에서 강한 SDR을 달성합니다.
Recently, many methods based on deep learning have been proposed for music source separation. Some state-of-the-art methods have shown that stacking many layers with many skip connections improve the SDR performance. Although such a deep and complex architecture shows outstanding performance, it usually requires numerous computing resources and time for training and evaluation. This paper proposes a two-stream neural network for music demixing, called KUIELab-MDX-Net, which shows a good balance of performance and required resources. The proposed model has a time-frequency branch and a time-domain branch, where each branch separates stems, respectively. It blends results from two streams to generate the final estimation. KUIELab-MDX-Net took second place on leaderboard A and third place on leaderboard B in the Music Demixing Challenge at ISMIR 2021. This paper also summarizes experimental results on another benchmark, MUSDB18. Our source code is available online.
연구 동기 및 목표
- 리소스 효율이 높으면서도 고성능인 음악 소스 분리 모델의 동기를 제시한다.
- 시간-주파수와 시간 도메인 접근법을 결합한 두 스트림 아키텍처를 설계하여 각 트랙을 분리한다.
- 최첨단 심층 아키텍처에 비해 계산 부하를 줄이면서 SDR 성능을 유지한다.
- MDX 챌린지에서 효과를 시연하고 MUSDB18에서 검증한다.
제안 방법
- 아키텍처를 단순화한 TFC-TDF-U-Net v2를 사용하여 시간-주파수 분기를 구현한다(곱셈식 스킵 연결, 대부분의 스킵 경로 제거).
- 사전 학습된 Demucs를 기반으로 한 시간 도메인 분기를 도입하되 미세 조정 없이 추가 소스 추정치를 제공한다.
- 독립적으로 추정된 소스와 혼합물을 융합하는 Mixer 네트워크를 추가하여 최종 출력을 정제한다.
- 시간 제한 내에 유효한 n_fft를 확장하기 위해 주파수 컷팅 등 소스별 전처리를 적용한다.
- 소스별로 단일 타깃 분리 모델 네 개를 훈련한 뒤 분리 모델을 고정한 상태로 Mixer를 훈련한다.
- 두 스트림의 출력을 가중 평균으로 혼합하여 최종 추정치를 생성한다.
실험 결과
연구 질문
- RQ1두 스트림 아키텍처(시간-주파수와 시간 도메인)가 음악 분리에 대해 자원 감소로도 경쟁력 있는 SDR을 달성할 수 있는가?
- RQ2MDX 호환 모델에서 성능과 계산 시간 사이의 우호적 균형을 얻기 위한 어떤 아키텍처 및 전처리 조정이 필요한가?
- RQ3Mixer 구성요소가 혼합물 내 교차 소스 정보를 활용하여 분리를 개선하는가?
주요 결과
| 모델 | 보컬 SDR | 드럼 SDR | 베이스 SDR | 기타 SDR |
|---|---|---|---|---|
| TFC-TDF-U-Net v1 (Choi et al., 2020) | 7.98 | 6.11 | 5.94 | 5.02 |
| X-UMX (Sawata et al., 2021) | 6.61 | 6.47 | 5.43 | 4.64 |
| Demucs (Défossez et al., 2021) | 6.84 | 6.86 | 7.01 | 4.42 |
| D3Net (Takahashi & Mitsufuji, 2021) | 7.24 | 7.01 | 5.25 | 4.53 |
| ResUNetDecouple+ (Kong et al., 2021) | 8.98 | 6.62 | 6.04 | 5.29 |
| TFC-TDF-U-Net v2 | 8.81 | 6.52 | 7.65 | 5.70 |
| v2 + Mixer | 8.91 | 7.07 | 7.33 | 5.81 |
| v2 + Demucs | 8.80 | 7.14 | 8.11 | 5.90 |
| KUIELab-MDX-Net | 9.00 | 7.33 | 7.86 | 5.95 |
- KUIELab-MDX-Net은 MUSDB18의 대부분의 악기에 대해 다수의 SOTA 모델과 경쟁력 있는 SDR 또는 그보다 우수한 성능을 달성한다.
- v2 (time-frequency) with Mixer outperforms several prior methods, achieving best SDR for vocals, drums, and other, with bass close to SOTA.
- 시간 도메인 분기와 Mixer를 도입하면 단일 스트림 approaches보다 추가 이득이 있다.
- MDX 2021 챌런지 Leaderboard A에서 2위, Leaderboard B에서 3위를 차지했다.
- 일부 심층 베이스라인에 비해 축소형 아키텍처를 사용하면서도 강력한 성능을 보인다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.