QUICK REVIEW

[論文レビュー] KUIELab-MDX-Net: A Two-Stream Neural Network for Music Demixing

Minseok Kim, Woosung Choi|arXiv (Cornell University)|Nov 24, 2021

Speech and Audio Processing参考文献 15被引用数 31

ひとこと要約

KUIELab-MDX-Netは、時系列-周波数領域ブランチと時間領域ブランチを備えた2ストリームの音楽分離モデルを提案し、それらの出力を組み合わせてMDX 2021のベンチマークで高い SDR を達成します。

ABSTRACT

Recently, many methods based on deep learning have been proposed for music source separation. Some state-of-the-art methods have shown that stacking many layers with many skip connections improve the SDR performance. Although such a deep and complex architecture shows outstanding performance, it usually requires numerous computing resources and time for training and evaluation. This paper proposes a two-stream neural network for music demixing, called KUIELab-MDX-Net, which shows a good balance of performance and required resources. The proposed model has a time-frequency branch and a time-domain branch, where each branch separates stems, respectively. It blends results from two streams to generate the final estimation. KUIELab-MDX-Net took second place on leaderboard A and third place on leaderboard B in the Music Demixing Challenge at ISMIR 2021. This paper also summarizes experimental results on another benchmark, MUSDB18. Our source code is available online.

研究の動機と目的

リソース効率と高性能を両立する音楽ソース分離モデルを動機付ける。
時系列-周波数領域と時間領域のアプローチを組み合わせた2ストリーム構造を設計し、別々のソースに対応。
最新の深層アーキテクチャと比べて計算負荷を削減しつつ、SDR性能を維持する。
MDX チャレンジでの有効性を示し、MUSDB18で検証する。

提案手法

多層的なスキップ接続の削減などの設計簡素化を施した TFC-TDF-U-Net v2 を用いて時間-周波数ブランチを実装する（乗算型スキップ接続、ほとんどのスキップ経路の除去）。
微調整なしの事前学習済み Demucs に基づく時間領域ブランチを組み込み、追加のソース推定を提供する。
独立に推定されたソースと混合物を融合して最終出力を精緻化するミキサー網を追加する。
時間制限内で有効な n_fft を拡張するために、周波数カットを含むソース固有の前処理を適用する。
ソースごとに4つの単一ターゲット分離モデルを訓練し、その後分離モデルを凍結した状態でミキサーを訓練する。
2つのストリームの出力を加重平均でブレンドして最終推定を生成する。

実験結果

リサーチクエスチョン

RQ1時系列-周波数領域と時間領域の2ストリームアーキテクチャで、音楽分離においてリソースを抑えつつ競争力のある SDR を達成できるか？
RQ2MDX準拠モデルにおいて、性能と計算時間の良好なバランスを生むアーキテクチャと前処理の調整は何か？
RQ3ミキサー成分は混合物内のソース間情報を活用して分離を改善するか？

主な発見

モデル	ボーカル SDR	ドラム SDR	ベース SDR	その他 SDR
TFC-TDF-U-Net v1 (Choi et al., 2020)	7.98	6.11	5.94	5.02
X-UMX (Sawata et al., 2021)	6.61	6.47	5.43	4.64
Demucs (Défossez et al., 2021)	6.84	6.86	7.01	4.42
D3Net (Takahashi & Mitsufuji, 2021)	7.24	7.01	5.25	4.53
ResUNetDecouple+ (Kong et al., 2021)	8.98	6.62	6.04	5.29
TFC-TDF-U-Net v2	8.81	6.52	7.65	5.70
v2 + Mixer	8.91	7.07	7.33	5.81
v2 + Demucs	8.80	7.14	8.11	5.90
KUIELab-MDX-Net	9.00	7.33	7.86	5.95

KUIELab-MDX-Net は MUSDB18 のほとんどの楽器で、SOTAモデルと同等またはそれ以上の SDR を達成する。
v2（時間-周波数領域）とMixer は従来手法を上回り、ボーカル、ドラム、その他で最も高い SDR を達成し、ベースはSOTAに近い。
時間領域ブランチとミキサーの組み込みは、単一ストリームアプローチより追加の利得をもたらす。
モデルは MDX 2021 チャレンジの Leaderboard A で2位、Leaderboard Bで3位にランクイン。
いくつかの深層ベースラインに対して小型化したアーキテクチャを用いながら、強力な性能を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。