[論文レビュー] KUIELab-MDX-Net: A Two-Stream Neural Network for Music Demixing
KUIELab-MDX-Netは、時系列-周波数領域ブランチと時間領域ブランチを備えた2ストリームの音楽分離モデルを提案し、それらの出力を組み合わせてMDX 2021のベンチマークで高い SDR を達成します。
Recently, many methods based on deep learning have been proposed for music source separation. Some state-of-the-art methods have shown that stacking many layers with many skip connections improve the SDR performance. Although such a deep and complex architecture shows outstanding performance, it usually requires numerous computing resources and time for training and evaluation. This paper proposes a two-stream neural network for music demixing, called KUIELab-MDX-Net, which shows a good balance of performance and required resources. The proposed model has a time-frequency branch and a time-domain branch, where each branch separates stems, respectively. It blends results from two streams to generate the final estimation. KUIELab-MDX-Net took second place on leaderboard A and third place on leaderboard B in the Music Demixing Challenge at ISMIR 2021. This paper also summarizes experimental results on another benchmark, MUSDB18. Our source code is available online.
研究の動機と目的
- リソース効率と高性能を両立する音楽ソース分離モデルを動機付ける。
- 時系列-周波数領域と時間領域のアプローチを組み合わせた2ストリーム構造を設計し、別々のソースに対応。
- 最新の深層アーキテクチャと比べて計算負荷を削減しつつ、SDR性能を維持する。
- MDX チャレンジでの有効性を示し、MUSDB18で検証する。
提案手法
- 多層的なスキップ接続の削減などの設計簡素化を施した TFC-TDF-U-Net v2 を用いて時間-周波数ブランチを実装する(乗算型スキップ接続、ほとんどのスキップ経路の除去)。
- 微調整なしの事前学習済み Demucs に基づく時間領域ブランチを組み込み、追加のソース推定を提供する。
- 独立に推定されたソースと混合物を融合して最終出力を精緻化するミキサー網を追加する。
- 時間制限内で有効な n_fft を拡張するために、周波数カットを含むソース固有の前処理を適用する。
- ソースごとに4つの単一ターゲット分離モデルを訓練し、その後分離モデルを凍結した状態でミキサーを訓練する。
- 2つのストリームの出力を加重平均でブレンドして最終推定を生成する。
実験結果
リサーチクエスチョン
- RQ1時系列-周波数領域と時間領域の2ストリームアーキテクチャで、音楽分離においてリソースを抑えつつ競争力のある SDR を達成できるか?
- RQ2MDX準拠モデルにおいて、性能と計算時間の良好なバランスを生むアーキテクチャと前処理の調整は何か?
- RQ3ミキサー成分は混合物内のソース間情報を活用して分離を改善するか?
主な発見
| モデル | ボーカル SDR | ドラム SDR | ベース SDR | その他 SDR |
|---|---|---|---|---|
| TFC-TDF-U-Net v1 (Choi et al., 2020) | 7.98 | 6.11 | 5.94 | 5.02 |
| X-UMX (Sawata et al., 2021) | 6.61 | 6.47 | 5.43 | 4.64 |
| Demucs (Défossez et al., 2021) | 6.84 | 6.86 | 7.01 | 4.42 |
| D3Net (Takahashi & Mitsufuji, 2021) | 7.24 | 7.01 | 5.25 | 4.53 |
| ResUNetDecouple+ (Kong et al., 2021) | 8.98 | 6.62 | 6.04 | 5.29 |
| TFC-TDF-U-Net v2 | 8.81 | 6.52 | 7.65 | 5.70 |
| v2 + Mixer | 8.91 | 7.07 | 7.33 | 5.81 |
| v2 + Demucs | 8.80 | 7.14 | 8.11 | 5.90 |
| KUIELab-MDX-Net | 9.00 | 7.33 | 7.86 | 5.95 |
- KUIELab-MDX-Net は MUSDB18 のほとんどの楽器で、SOTAモデルと同等またはそれ以上の SDR を達成する。
- v2(時間-周波数領域)とMixer は従来手法を上回り、ボーカル、ドラム、その他で最も高い SDR を達成し、ベースはSOTAに近い。
- 時間領域ブランチとミキサーの組み込みは、単一ストリームアプローチより追加の利得をもたらす。
- モデルは MDX 2021 チャレンジの Leaderboard A で2位、Leaderboard Bで3位にランクイン。
- いくつかの深層ベースラインに対して小型化したアーキテクチャを用いながら、強力な性能を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。