Skip to main content
QUICK REVIEW

[論文レビュー] KUIELab-MDX-Net: A Two-Stream Neural Network for Music Demixing

Minseok Kim, Woosung Choi|arXiv (Cornell University)|Nov 24, 2021
Speech and Audio Processing参考文献 15被引用数 31
ひとこと要約

KUIELab-MDX-Netは、時系列-周波数領域ブランチと時間領域ブランチを備えた2ストリームの音楽分離モデルを提案し、それらの出力を組み合わせてMDX 2021のベンチマークで高い SDR を達成します。

ABSTRACT

Recently, many methods based on deep learning have been proposed for music source separation. Some state-of-the-art methods have shown that stacking many layers with many skip connections improve the SDR performance. Although such a deep and complex architecture shows outstanding performance, it usually requires numerous computing resources and time for training and evaluation. This paper proposes a two-stream neural network for music demixing, called KUIELab-MDX-Net, which shows a good balance of performance and required resources. The proposed model has a time-frequency branch and a time-domain branch, where each branch separates stems, respectively. It blends results from two streams to generate the final estimation. KUIELab-MDX-Net took second place on leaderboard A and third place on leaderboard B in the Music Demixing Challenge at ISMIR 2021. This paper also summarizes experimental results on another benchmark, MUSDB18. Our source code is available online.

研究の動機と目的

  • リソース効率と高性能を両立する音楽ソース分離モデルを動機付ける。
  • 時系列-周波数領域と時間領域のアプローチを組み合わせた2ストリーム構造を設計し、別々のソースに対応。
  • 最新の深層アーキテクチャと比べて計算負荷を削減しつつ、SDR性能を維持する。
  • MDX チャレンジでの有効性を示し、MUSDB18で検証する。

提案手法

  • 多層的なスキップ接続の削減などの設計簡素化を施した TFC-TDF-U-Net v2 を用いて時間-周波数ブランチを実装する(乗算型スキップ接続、ほとんどのスキップ経路の除去)。
  • 微調整なしの事前学習済み Demucs に基づく時間領域ブランチを組み込み、追加のソース推定を提供する。
  • 独立に推定されたソースと混合物を融合して最終出力を精緻化するミキサー網を追加する。
  • 時間制限内で有効な n_fft を拡張するために、周波数カットを含むソース固有の前処理を適用する。
  • ソースごとに4つの単一ターゲット分離モデルを訓練し、その後分離モデルを凍結した状態でミキサーを訓練する。
  • 2つのストリームの出力を加重平均でブレンドして最終推定を生成する。

実験結果

リサーチクエスチョン

  • RQ1時系列-周波数領域と時間領域の2ストリームアーキテクチャで、音楽分離においてリソースを抑えつつ競争力のある SDR を達成できるか?
  • RQ2MDX準拠モデルにおいて、性能と計算時間の良好なバランスを生むアーキテクチャと前処理の調整は何か?
  • RQ3ミキサー成分は混合物内のソース間情報を活用して分離を改善するか?

主な発見

モデルボーカル SDRドラム SDRベース SDRその他 SDR
TFC-TDF-U-Net v1 (Choi et al., 2020)7.986.115.945.02
X-UMX (Sawata et al., 2021)6.616.475.434.64
Demucs (Défossez et al., 2021)6.846.867.014.42
D3Net (Takahashi & Mitsufuji, 2021)7.247.015.254.53
ResUNetDecouple+ (Kong et al., 2021)8.986.626.045.29
TFC-TDF-U-Net v28.816.527.655.70
v2 + Mixer8.917.077.335.81
v2 + Demucs8.807.148.115.90
KUIELab-MDX-Net9.007.337.865.95
  • KUIELab-MDX-Net は MUSDB18 のほとんどの楽器で、SOTAモデルと同等またはそれ以上の SDR を達成する。
  • v2(時間-周波数領域)とMixer は従来手法を上回り、ボーカル、ドラム、その他で最も高い SDR を達成し、ベースはSOTAに近い。
  • 時間領域ブランチとミキサーの組み込みは、単一ストリームアプローチより追加の利得をもたらす。
  • モデルは MDX 2021 チャレンジの Leaderboard A で2位、Leaderboard Bで3位にランクイン。
  • いくつかの深層ベースラインに対して小型化したアーキテクチャを用いながら、強力な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。