QUICK REVIEW

[논문 리뷰] Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed

Alexandre Défossez, Nicolas Usunier|arXiv (Cornell University)|2019. 09. 03.

Speech and Audio Processing참고 문헌 34인용 수 57

한 줄 요약

이 논문은 Wave-U-Net를 능가하는 파형 기반 소스 분리 모델(Demucs)을 제시하고, 라벨이 없는 음악을 훈련에 활용하기 위한 반지도 학습 Remixing 스킴을 도입한다.

ABSTRACT

We study the problem of source separation for music using deep learning with four known sources: drums, bass, vocals and other accompaniments. State-of-the-art approaches predict soft masks over mixture spectrograms while methods working on the waveform are lagging behind as measured on the standard MusDB benchmark. Our contribution is two fold. (i) We introduce a simple convolutional and recurrent model that outperforms the state-of-the-art model on waveforms, that is, Wave-U-Net, by 1.6 points of SDR (signal to distortion ratio). (ii) We propose a new scheme to leverage unlabeled music. We train a first model to extract parts with at least one source silent in unlabeled tracks, for instance without bass. We remix this extract with a bass line taken from the supervised dataset to form a new weakly supervised training example. Combining our architecture and scheme, we show that waveform methods can play in the same ballpark as spectrogram ones.

연구 동기 및 목표

MusDB에서 스펙트로그램 기반 방법과 대등하거나 이를 상회하는 파형 기반 음악 소스 분리 모델을 개발한다.
파형 데이터에서 Wave-U-Net 기본값 대비 성능을 향상시킨다.
감독 데이터에서 분리된 소스와 결합한 추출 부품을 리믹싱하여 비라벨 곡을 활용하는 반지도 학습 데이터 확장 방법을 도입한다.

제안 방법

엔드-투-엔드 파형 소스 분리를 위한 간단한 합성곱 및 순환 신경망 모델을 제안한다.
드럼, 베이스, 보컬, 기타에 해당하는 네 가지 소스 출력으로 학습한다.
STFT/ISTFT의 위상 가정으로 인한 아티팩트를 피하기 위해 엔드-투-엔드 학습을 사용한다.
반지도 리믹싱 스킴 도입: 비라벨 트랙에서 최소 하나의 무음 소스가 있는 부분을 추출하도록 첫 번째 모델을 학습시키고, 이 추출물을 감독 데이터의 베이스 라인과 리믹싱하여 약하게 지도된 학습 예제를 만든다.
스펙트로그램 기반 방법과 비교하여 파형 모델의 성능이 경쟁력이 있음을 보인다.

실험 결과

연구 질문

RQ1파형 기반 모델이 음악 소스 분리에서 스테이트-오브-더-아트(state-of-the-art) 또는 근사치의 성능을 스펙트로그램 기반 방법과 비교하여 달성할 수 있는가?
RQ2리믹스 기반의 반지도 학습 스킴을 통해 비라벨 음악을 활용하는 것이 파형 기반 분리 성능을 향상시키는가?
RQ3제안된 Demucs 아키텍처가 MusDB 벤치마크에서 Wave-U-Net 기본값에 비해 어떤 성능을 보이는가?
RQ4소스 분리에서 엔드-투-엔드 파형 학습과 위상 재사용 스펙트로그램 방법의 이점과 한계는 무엇인가?

주요 결과

Demucs는 파형 기반 소스 분리에서 최첨단 Wave-U-Net보다 1.6 SDR 향상을 보인다.
2,000개의 비라벨 곡을 활용하는 반지도 데이터 증강 스킴이 성능을 향상시킨다.
리믹싱 스킴을 적용한 파형 모델은 스펙트로그램 기반 방법과 비슷한 범위의 성능에 도달할 수 있다.
이 접근법은 파형에서 직접 엔드-투-엔드 학습을 가능하게 함으로써 스펙트로그램 기반 마스크의 한계를 해결한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.