QUICK REVIEW

[논문 리뷰] KUIELab-MDX-Net: A Two-Stream Neural Network for Music Demixing

Minseok Kim, Woosung Choi|arXiv (Cornell University)|2021. 11. 24.

Speech and Audio Processing참고 문헌 15인용 수 31

한 줄 요약

KUIELab-MDX-Net은 시간-주파수 분기와 시간 도메인 분기를 가진 두 흐름 음악 분리 모델을 제안하고, 두 출력의 조합으로 MDX 2021 벤치마크에서 강한 SDR을 달성합니다.

ABSTRACT

Recently, many methods based on deep learning have been proposed for music source separation. Some state-of-the-art methods have shown that stacking many layers with many skip connections improve the SDR performance. Although such a deep and complex architecture shows outstanding performance, it usually requires numerous computing resources and time for training and evaluation. This paper proposes a two-stream neural network for music demixing, called KUIELab-MDX-Net, which shows a good balance of performance and required resources. The proposed model has a time-frequency branch and a time-domain branch, where each branch separates stems, respectively. It blends results from two streams to generate the final estimation. KUIELab-MDX-Net took second place on leaderboard A and third place on leaderboard B in the Music Demixing Challenge at ISMIR 2021. This paper also summarizes experimental results on another benchmark, MUSDB18. Our source code is available online.

연구 동기 및 목표

리소스 효율이 높으면서도 고성능인 음악 소스 분리 모델의 동기를 제시한다.
시간-주파수와 시간 도메인 접근법을 결합한 두 스트림 아키텍처를 설계하여 각 트랙을 분리한다.
최첨단 심층 아키텍처에 비해 계산 부하를 줄이면서 SDR 성능을 유지한다.
MDX 챌린지에서 효과를 시연하고 MUSDB18에서 검증한다.

제안 방법

아키텍처를 단순화한 TFC-TDF-U-Net v2를 사용하여 시간-주파수 분기를 구현한다(곱셈식 스킵 연결, 대부분의 스킵 경로 제거).
사전 학습된 Demucs를 기반으로 한 시간 도메인 분기를 도입하되 미세 조정 없이 추가 소스 추정치를 제공한다.
독립적으로 추정된 소스와 혼합물을 융합하는 Mixer 네트워크를 추가하여 최종 출력을 정제한다.
시간 제한 내에 유효한 n_fft를 확장하기 위해 주파수 컷팅 등 소스별 전처리를 적용한다.
소스별로 단일 타깃 분리 모델 네 개를 훈련한 뒤 분리 모델을 고정한 상태로 Mixer를 훈련한다.
두 스트림의 출력을 가중 평균으로 혼합하여 최종 추정치를 생성한다.

실험 결과

연구 질문

RQ1두 스트림 아키텍처(시간-주파수와 시간 도메인)가 음악 분리에 대해 자원 감소로도 경쟁력 있는 SDR을 달성할 수 있는가?
RQ2MDX 호환 모델에서 성능과 계산 시간 사이의 우호적 균형을 얻기 위한 어떤 아키텍처 및 전처리 조정이 필요한가?
RQ3Mixer 구성요소가 혼합물 내 교차 소스 정보를 활용하여 분리를 개선하는가?

주요 결과

모델	보컬 SDR	드럼 SDR	베이스 SDR	기타 SDR
TFC-TDF-U-Net v1 (Choi et al., 2020)	7.98	6.11	5.94	5.02
X-UMX (Sawata et al., 2021)	6.61	6.47	5.43	4.64
Demucs (Défossez et al., 2021)	6.84	6.86	7.01	4.42
D3Net (Takahashi & Mitsufuji, 2021)	7.24	7.01	5.25	4.53
ResUNetDecouple+ (Kong et al., 2021)	8.98	6.62	6.04	5.29
TFC-TDF-U-Net v2	8.81	6.52	7.65	5.70
v2 + Mixer	8.91	7.07	7.33	5.81
v2 + Demucs	8.80	7.14	8.11	5.90
KUIELab-MDX-Net	9.00	7.33	7.86	5.95

KUIELab-MDX-Net은 MUSDB18의 대부분의 악기에 대해 다수의 SOTA 모델과 경쟁력 있는 SDR 또는 그보다 우수한 성능을 달성한다.
v2 (time-frequency) with Mixer outperforms several prior methods, achieving best SDR for vocals, drums, and other, with bass close to SOTA.
시간 도메인 분기와 Mixer를 도입하면 단일 스트림 approaches보다 추가 이득이 있다.
MDX 2021 챌런지 Leaderboard A에서 2위, Leaderboard B에서 3위를 차지했다.
일부 심층 베이스라인에 비해 축소형 아키텍처를 사용하면서도 강력한 성능을 보인다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.