Skip to main content
QUICK REVIEW

[論文レビュー] D3Net: Densely connected multidilated DenseNet for music source separation

Naoya Takahashi, Yuki Mitsufuji|arXiv (Cornell University)|Oct 5, 2020
Speech and Audio Processing参考文献 20被引用数 48
ひとこと要約

D3Net は、音楽ソース分離のための密結合多拡張 DenseNet アーキテクチャを導入し、単一層内で多解像情報をモデル化することでアリシングを緩和しつつ MUSDB18 上で最先端の SDR を達成する。

ABSTRACT

Music source separation involves a large input field to model a long-term dependence of an audio signal. Previous convolutional neural network (CNN)-based approaches address the large input field modeling using sequentially down- and up-sampling feature maps or dilated convolution. In this paper, we claim the importance of a rapid growth of a receptive field and a simultaneous modeling of multi-resolution data in a single convolution layer, and propose a novel CNN architecture called densely connected dilated DenseNet (D3Net). D3Net involves a novel multi-dilated convolution that has different dilation factors in a single layer to model different resolutions simultaneously. By combining the multi-dilated convolution with DenseNet architecture, D3Net avoids the aliasing problem that exists when we naively incorporate the dilated convolution in DenseNet. Experimental results on MUSDB18 dataset show that D3Net achieves state-of-the-art performance with an average signal to distortion ratio (SDR) of 6.01 dB.

研究の動機と目的

  • 音楽ソース分離のために大きな受容野と多解像度モデリングを動機づける。
  • DenseNet 内で multidilated 畳み込みを提案し、1つの層で複数の解像度をモデル化する。
  • 膨張と密結合スキップ接続を組み合わせるときのエイリアシングを緩和する。
  • 解像度と深さを横断して特徴を再利用するネストされた D2/D3 ブロックアーキテクチャを導入する。

提案手法

  • 各スキップ接続チャネルが異なる膨張率を使用する多拡張畳み込みを定義する(d_i = 2^i)。
  • DenseNet に似た密結合ブロック(D2 ブロック)に多拡張畳み込みを組み込む。
  • D2 ブロックを D3Net アーキテクチャにネストし、特徴マップの成長を制御するためのチャネル縮小を行う。
  • STFT の振幅入力と MWF Post-filter を用いて MUSDB18 で4つのネットワーク(ソースごとに1つ)を訓練する。
  • バンドごとのモジュールと全帯域モジュールを備えたマルチスケール・マルチバンドアーキテクチャを使用する。
  • MUSDB18 上で SDR により評価し、エイリアシング効果を評価するアブレーション研究を行う。

実験結果

リサーチクエスチョン

  • RQ1CNN を用いたMSS で、マルチ解像度情報を保ちながら受容野を急速に拡大するにはどうすればよいか?
  • RQ2DenseNet 内の多拡張畳み込みはエイリアシングを緩和し、音源分離を改善するか?
  • RQ3ネストされた D2/D3Net アーキテクチャは、膨張を用いた標準の DenseNet より MSS の性能を向上させるか?
  • RQ4MSS における SDR に対する多拡張と標準の膨張/非拡張の影響は何か?
  • RQ5D3Net は MUSDB18 で最先端の MSS 手法と比較してどうであるか?

主な発見

SDR(dB)方法ボーカルドラムベースその他伴奏平均
6.60TAK1 (MMDenseLSTM) [ 10 ]6.606.435.164.1512.835.59
5.93UHL2 (BLSTM ensemble) [ 3 ]5.935.925.034.1912.235.27
6.85GRU dilation 1 [ 11 ]6.855.864.864.6513.405.56
6.32UMX [ 19 ]6.325.735.234.02-5.33
6.29demucs* [ 7 ]6.296.085.834.12-5.58
6.40Meta-TasNet* [ 8 ]6.405.915.584.19-5.52
6.92Nachmani et. al.* [ 20 ]6.926.155.884.32-5.82
6.86D3Net w/o dilation6.866.374.974.2113.195.60
7.12D3Net standard dilation7.126.615.194.5313.395.86
7.24D3Net (proposed)7.247.015.254.5313.526.01
  • D3Net は MUSDB18 で平均 SDR(6.01 dB)を達成し、最先端である。
  • 多拡張畳み込みはエイリアシングを低減し、特徴の利用を高めることで標準の膨張畳み込みを上回る。
  • D3Net はベースラインと比較してボーカル、ドラム、伴奏の SDR を改善し、特にボーカルとドラム分離で最大の利得を得る。
  • アブレーションでは DenseNet での素朴な膨張がエイリアシングを招くことを示し、密結合を持つ多拡張は解像度を跨いだ情報を保持する。
  • 追加データの使用は D3Net の SDR をさらに向上させ、ボーカルと総合性能でデータ拠が強化されたベースラインのいくつかを上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。