QUICK REVIEW

[논문 리뷰] Decoupling Magnitude and Phase Estimation with Deep ResUNet for Music Source Separation

Qiuqiang Kong, Yin Cao|arXiv (Cornell University)|2021. 09. 12.

Speech and Audio Processing인용 수 38

한 줄 요약

이 논문은 복소수 이상적 비율 마스크(cIRM)에서 크기와 위상을 분리하고, 직접 크기 예측과 결합하여 마스크 크기를 무한대로 확장 가능하게 하며, MUSDB18에서 특히 보컬의 SSS를 향상시키는 143층 잔차 UNet(ResUNet)를 제시합니다. 이를 통해 음악 소스 분리에 관한 최첨단 성능을 달성합니다(SDR 8.98 dB).

ABSTRACT

Deep neural network based methods have been successfully applied to music source separation. They typically learn a mapping from a mixture spectrogram to a set of source spectrograms, all with magnitudes only. This approach has several limitations: 1) its incorrect phase reconstruction degrades the performance, 2) it limits the magnitude of masks between 0 and 1 while we observe that 22% of time-frequency bins have ideal ratio mask values of over~1 in a popular dataset, MUSDB18, 3) its potential on very deep architectures is under-explored. Our proposed system is designed to overcome these. First, we propose to estimate phases by estimating complex ideal ratio masks (cIRMs) where we decouple the estimation of cIRMs into magnitude and phase estimations. Second, we extend the separation method to effectively allow the magnitude of the mask to be larger than 1. Finally, we propose a residual UNet architecture with up to 143 layers. Our proposed system achieves a state-of-the-art MSS result on the MUSDB18 dataset, especially, a SDR of 8.98~dB on vocals, outperforming the previous best performance of 7.24~dB. The source code is available at: https://github.com/bytedance/music_source_separation

연구 동기 및 목표

위상 추정 한계 및 마스크 크기 한계가 MSS를 저해하는 요인을 해결하여 MSS 성능을 개선하려는 동기를 제시합니다.
복소 마스크(cIRM)에 대한 크기와 위상 분리를 제안합니다.
바운딩된 마스크와 직접 크기 예측 항을 결합하여 |S| = ReLU(M_mag ⊙ |X| + Q)로 소스 크기를 추정합니다.
깊은 잔차 UNet(143층)을 도입하여 MSS 성능을 강화합니다.
MUSDB18에서 특히 보컬에 대해 최첨단 결과를 보여줍니다.

제안 방법

복합 IRM 추정을 위해 바운딩된 마스크를 예측하고 실수/허수 성분을 통해 마스크 위상 각도의 코사인 및 사인을 도출하여 크기와 위상을 분리합니다.
M_mag, cos(angle M), sin(angle M)와 X를 이용해 cIRM을 계산하고 S = M X를 통해 크기 조정과 위상 회전을 통해 S를 복구합니다.
바운딩된 마스크와 직접 크기 예측 항을 결합하여 소스 크기를 추정합니다( |S| = ReLU(M_mag ⊙ |X| + Q) ).
공유된 백본을 통해 네 가지 출력을 예측합니다: M_mag, Q, P_r, P_i; 적절한 활성화 함수를 적용하고 복소 마스크 M = M_r + j M_i를 구성하여 분리에 활용합니다.
143층 잔차 UNet(ResUNet)을 개발하여 잔차 인코더 블록, 잔차 디코더 블록, 중간 합성 블록을 갖춘 깊은 MSS 아키텍처를 가능하게 합니다.

실험 결과

연구 질문

RQ1크게 분리된 크기와 위상이 전통적인 크기 기반 접근법과 비교해 복소 마스크 기반 MSS를 향상시키는가?
RQ2마스크 크기를 1보다 크게 허용하는 것이 MSS 성능과 이론적 상한에 어떤 영향을 미치는가?
RQ3매우 깊은 잔차 UNet이 얕은 아키텍처에 비해 MSS에 실제 이점을 제공하는가?
RQ4바운딩된 마스크 추정과 직접 크기 예측을 결합하면 두 방법 중 어느 하나만 사용할 때보다 SDR를 더 높일 수 있는가?
RQ5이 기법들을 MUSDB18에서 보컬 및 악기 소스의 성능 향상을 어떻게 나타내는가?

주요 결과

보컬	베이스	드럼	다른	반주
6.32	5.23	5.73	4.02	-
3.25	3.21	4.22	2.25	-
6.29	5.83	6.08	4.12	-
6.81	5.66	6.08	4.37	-
6.86	5.51	6.71	4.55	-
7.24	5.25	7.01	4.53	13.52
8.98	6.04	6.62	5.29	16.63

제안된 분리된 cIRM 추정은 위상 없이/크기만 사용하는 접근법보다 성능을 개선하여 보컬 SDR을 향상시킵니다.
크기 > 1인 무제한 마스크를 허용하는 cIRM은 이론적 상한과 SDR의 실질적 이익을 증가시킵니다.
바운딩된 마스크와 직접 크기 예측 항을 결합하면 단독으로 어떤 방법을 사용하는 것보다 MSS 성능이 향상됩니다.
143층 잔차 UNet(ResUNet)은 얕은 UNet보다 성능이 크게 뛰어나 깊은 아키텍처가 MSS에 도움이 됨을 확인합니다.
MUSDB18에서 최종 ResUNetDecouple+ 시스템은 보컬에 대해 8.98 dB SDR을 달성하며 이전 최고치(7.24 dB)와 다른 기준선들보다 우수하며, 다른 소스들 역시 개선을 보입니다(예: 베이스 6.04 dB, 드럼 6.62 dB, 기타 5.29 dB, 반주 16.63 dB).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.