[논문 리뷰] D3Net: Densely connected multidilated DenseNet for music source separation
D3Net은 음악 소스 분리에 대해 단일 계층 내에서 다중 해상 정보를 모델링하면서 별칭화를 완화하고 MUSDB18에서 최첨단 SDR을 달성하는 촘촘히 연결된 다중 확장 DenseNet 아키텍처를 도입합니다.
Music source separation involves a large input field to model a long-term dependence of an audio signal. Previous convolutional neural network (CNN)-based approaches address the large input field modeling using sequentially down- and up-sampling feature maps or dilated convolution. In this paper, we claim the importance of a rapid growth of a receptive field and a simultaneous modeling of multi-resolution data in a single convolution layer, and propose a novel CNN architecture called densely connected dilated DenseNet (D3Net). D3Net involves a novel multi-dilated convolution that has different dilation factors in a single layer to model different resolutions simultaneously. By combining the multi-dilated convolution with DenseNet architecture, D3Net avoids the aliasing problem that exists when we naively incorporate the dilated convolution in DenseNet. Experimental results on MUSDB18 dataset show that D3Net achieves state-of-the-art performance with an average signal to distortion ratio (SDR) of 6.01 dB.
연구 동기 및 목표
- 음악 소스 분리에 대해 큰 수용 영역과 다중 해상 모델링의 필요성을 제시한다.
- DenseNet 내에서 다중 확장 컨볼루션을 제안하여 한 층에서 여러 해상도를 모델링한다.
- 확장과 촘촘한 스킵 연결을 결합할 때 aliasing을 완화한다.
- 해상도와 깊이에 걸쳐 피처를 재사용하기 위한 중첩된 D2/D3 블록 아키텍처를 도입한다.
제안 방법
- 각 스킵 연결 채널마다 다른 확장(d_i = 2^i)을 사용하는 다중 확장 컨볼루션을 정의한다.
- DenseNet 유사하게 촘촘하게 연결된 블록(D2 블록)에 다중 확장 컨볼루션을 통합한다.
- 채널 축소를 통해 피처 맵 성장을 제어하는 D3Net 아키텍처에 D2 블록을 중첩한다.
- STFT 크기 입력과 MWF 포스트 필터를 사용하여 MUSDB18에서 네 개의 네트워크(소스당 하나)를 학습한다.
- 밴드별 모듈과 전체 대역 모듈을 갖춘 다중 해상도 다중 대역 아키텍처를 사용한다.
- MUSDB18에서 SDR로 평가하고 앨리어싱 효과를 평가하기 위한 차별 실험을 수행한다.
실험 결과
연구 질문
- RQ1CNN으로 MSS에서 수용 영역을 빠르게 확장하면서 다중 해상도 정보를 보존하는 방법은 무엇인가?
- RQ2DenseNet 내 다중 확장 컨볼루션이 앨리어싱을 완화하고 소스 분리를 개선하는가?
- RQ3중첩된 D2/D3Net 아키텍처가 표준 확장 DenseNet보다 MSS 성능을 향상시키는가?
- RQ4다중 확장과 표준 확장 및 비확장의 SDR에 미치는 영향은 무엇인가?
- RQ5D3Net이 MUSDB18에서 최첨단 MSS 방법들과 어떻게 비교되는가?
주요 결과
| SDR(dB) | 방법 | 보컬 | 드럼 | 베이스 | 기타 | 반주 | 평균 |
|---|---|---|---|---|---|---|---|
| 6.60 | TAK1 (MMDenseLSTM) [ 10 ] | 6.60 | 6.43 | 5.16 | 4.15 | 12.83 | 5.59 |
| 5.93 | UHL2 (BLSTM ensemble) [ 3 ] | 5.93 | 5.92 | 5.03 | 4.19 | 12.23 | 5.27 |
| 6.85 | GRU dilation 1 [ 11 ] | 6.85 | 5.86 | 4.86 | 4.65 | 13.40 | 5.56 |
| 6.32 | UMX [ 19 ] | 6.32 | 5.73 | 5.23 | 4.02 | - | 5.33 |
| 6.29 | demucs* [ 7 ] | 6.29 | 6.08 | 5.83 | 4.12 | - | 5.58 |
| 6.40 | Meta-TasNet* [ 8 ] | 6.40 | 5.91 | 5.58 | 4.19 | - | 5.52 |
| 6.92 | Nachmani et. al.* [ 20 ] | 6.92 | 6.15 | 5.88 | 4.32 | - | 5.82 |
| 6.86 | D3Net w/o dilation | 6.86 | 6.37 | 4.97 | 4.21 | 13.19 | 5.60 |
| 7.12 | D3Net standard dilation | 7.12 | 6.61 | 5.19 | 4.53 | 13.39 | 5.86 |
| 7.24 | D3Net (proposed) | 7.24 | 7.01 | 5.25 | 4.53 | 13.52 | 6.01 |
- D3Net은 MUSDB18에서 평균 SDR(6.01 dB)로 최첨단을 달성한다.
- 다중 확장 컨볼루션은 표준 확장 컨볼루션보다 앨리어싱을 감소시키고 피처 활용을 향상시켜 우수한 성능을 보인다.
- D3Net은 베이스라인 대비 보컬, 드럼, 반주 SDR을 개선하고 보컬 및 드럼 분리에서 가장 큰 이득을 보인다.
- 아블레이션은 DenseNet의 단순 확장이 앨리어싱을 야기하는 반면 다중 확장을 촘촘한 연결과 함께 사용하면 해상도 전반에 걸친 정보를 보존한다.
- 추가 데이터를 사용하면 D3Net의 SDR이 더욱 향상되어 보컬 및 전체 성능이 데이터 증강 기반의 여러 baselines보다 높아진다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.