[논문 리뷰] Music Source Separation in the Waveform Domain
본 논문은 파형 도메인(waveform-domain) 음악 소스 분리 아키텍처를 비교하고, U-Net과 양방향 LSTM을 갖춘 Demucs 모델을 도입하여 spectrogram 기반 방법과 Conv-Tasnet를 MusDB에서 능가하며, 데이터 증강으로 더 높은 SDR과 자연스러운 음질을 달성한다.
Source separation for music is the task of isolating contributions, or stems, from different instruments recorded individually and arranged together to form a song. Such components include voice, bass, drums and any other accompaniments.Contrarily to many audio synthesis tasks where the best performances are achieved by models that directly generate the waveform, the state-of-the-art in source separation for music is to compute masks on the magnitude spectrum. In this paper, we compare two waveform domain architectures. We first adapt Conv-Tasnet, initially developed for speech source separation,to the task of music source separation. While Conv-Tasnet beats many existing spectrogram-domain methods, it suffersfrom significant artifacts, as shown by human evaluations. We propose instead Demucs, a novel waveform-to-waveform model,with a U-Net structure and bidirectional LSTM.Experiments on the MusDB dataset show that, with proper data augmentation, Demucs beats allexisting state-of-the-art architectures, including Conv-Tasnet, with 6.3 SDR on average, (and up to 6.8 with 150 extra training songs, even surpassing the IRM oracle for the bass source).Using recent development in model quantization, Demucs can be compressed down to 120MBwithout any loss of accuracy.We also provide human evaluations, showing that Demucs benefit from a large advantagein terms of the naturalness of the audio. However, it suffers from some bleeding,especially between the vocals and other source.
연구 동기 및 목표
- spectrogram 마스킹을 넘어 음악 소스 분리를 위한 파형 도메인 접근법의 필요성을 제시한다.
- 44.1 kHz의 스테레오 음악에 Conv-Tasnet를 적응시키고 평가하며 아티팩트를 식별한다.
- 새로운 파형-대-파형 아키텍처인 Demucs를 도입하고 최첨단 방법과의 성능을 평가한다.
제안 방법
- 인코더/디코더 설정을 조정하여 Conv-Tasnet 아키텍처를 44.1 kHz의 스테레오 음악에 적응시킨다.
- SI-SNR 대신 소스 재구성을 위한 회귀 손실(L1)을 정의한다.
- U-Net 인코더-디코더와 그 사이의 양방향 LSTM으로 Demucs를 개발하고, 넓은 전치 합성(convolution) 및 게이트드 선형 유닛(Gated Linear Units)을 사용한다.
- 일관성 일반화 향상을 위한 피치/템포 시프트를 포함한 데이터 증강을 적용한다.
- MusDB 데이터셋에서 파형 도메인 모델을 spectrogram-도메인 기준선과 비교한다.
- 생성된 오디오의 자연스러움과 아티팩트 수준을 인간 평가로 평가한다.
실험 결과
연구 질문
- RQ1MusDB에서 파형 도메인 아키텍처가 spectrogram 도메인 방법보다 더 높은 SDR을 달성할 수 있는가?
- RQ2음악 분리에서 Conv-Tasnet의 아티팩트가 성능을 제한하는가, 그리고 파형-대-파형 모델이 이를 완화할 수 있는가?
- RQ3데이타 증강 후 Demucs 아키텍처가 최첨단 spectrogram 도메인 방법과 Conv-Tasnet를 능가하는가?
- RQ4피치/템포 시프트 증강이 Demucs와 Conv-Tasnet의 성능에 미치는 영향은 무엇인가?
- RQ5사람의 평가에 따른 자연스러움과 소스 간 누출(bleeding) 측면에서 Demucs의 성능은 어떠한가?
주요 결과
- Demucs는 추가 학습 데이터 없이 MusDB에서 평균 6.3 SDR을 달성하여 기존 최고 방법(6.0 SDR)을 능가한다.
- 추가로 150곡의 학습 샘플로 Demucs는 최대 6.8 SDR에 도달하며 베이스 소스의 IRM 오라클(7.6 SDR vs 7.1 IRM)을 능가한다.
- Conv-Tasnet은 파형 모델 중에서도 강력하지만 아티팩트와 공허한 악기 어택이 발생하며 Demucs에서처럼 두드러지지 않는다.
- 피치/템포 시프트를 이용한 데이터 증강은 Demucs에 0.4 SDR 이득을 제공하지만 Conv-Tasnet에는 덜 이롭다.
- 사람 평가에서 Demucs가 자연스러움 면에서 큰 우위를 보이나 보컬과 다른 소스 간의 일부 누출이 발생한다.
- 양자화로 약 120MB까지 압축하더라도 정확도 손실 없이 가능하다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.