QUICK REVIEW

[論文レビュー] Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed

Alexandre Défossez, Nicolas Usunier|arXiv (Cornell University)|Sep 3, 2019

Speech and Audio Processing参考文献 34被引用数 57

ひとこと要約

この論文はウェーブフォームを基盤としたソース分離モデル（Demucs）を提示し、Wave-U-Netを上回り、ラベルなしの音楽を訓練に活用する半教師ありリミックス手法を導入している。

ABSTRACT

We study the problem of source separation for music using deep learning with four known sources: drums, bass, vocals and other accompaniments. State-of-the-art approaches predict soft masks over mixture spectrograms while methods working on the waveform are lagging behind as measured on the standard MusDB benchmark. Our contribution is two fold. (i) We introduce a simple convolutional and recurrent model that outperforms the state-of-the-art model on waveforms, that is, Wave-U-Net, by 1.6 points of SDR (signal to distortion ratio). (ii) We propose a new scheme to leverage unlabeled music. We train a first model to extract parts with at least one source silent in unlabeled tracks, for instance without bass. We remix this extract with a bass line taken from the supervised dataset to form a new weakly supervised training example. Combining our architecture and scheme, we show that waveform methods can play in the same ballpark as spectrogram ones.

研究の動機と目的

MusDB 上でスペクトログラムベースの手法と同等かそれ以上の性能を発揮する、音楽ソース分離のウェーブフォームベースモデルを開発する。
ウェーブフォームデータに対する Wave-U-Net のベースラインより性能を向上させる。
監督付きデータの分離済みソースと抽出部分をリミックスすることで、ラベルなし曲を活用した半教師付きデータ拡張法を導入する。

提案手法

エンドツーエンドのウェーブフォームソース分離のためのシンプルな畳み込み-リカレントモデルを提案する。
ドラム、ベース、ボーカル、その他の4ソース出力を訓練する。
STFT/ISTFTの位相仮定によるアーチファクトを避けるためエンドツーエンド訓練を用いる。
ラベルなしトラックの中で少なくとも1つのサイレントソースを含む部分を抽出する最初のモデルを訓練し、その抽出部分を監督データセットのベースラインのベースラインとリミックスして弱教師あり訓練例を作成する。
ウェーブフォームモデルの性能をスペクトログラムベースの手法と比較し、ウェーブフォーム手法が競争力を持つことを示す。

実験結果

リサーチクエスチョン

RQ1ウェーブフォームベースのモデルは、スペクトログラムベースの方法と比較して音楽ソース分離で最先端またはほぼ最先端の性能を達成できるか？
RQ2リミックスベースの半教師付きスキームを用いてラベルなしの音楽を活用することで、ウェーブフォームベースの分離性能は改善されるか？
RQ3提案された Demucs アーキテクチャは MusDB ベンチマークで Wave-U-Net ベースラインと比較してどういう性能か？
RQ4ソース分離におけるエンドツーエンドのウェーブフォーム訓練と位相を再利用するスペクトログラム法の利点と限界は何か？

主な発見

Demucsはウェーブフォームベースのソース分離で最先端の Wave-U-Net を 1.6 SDR 上回る。
2,000曲のラベルなし音楽を活用する半教師付きデータ拡張スキームが性能を向上させる。
リミックス手法を組み込んだウェーブフォームモデルは、スペクトログラムベースの手法と同程度の性能を発揮できる。
このアプローチはスペクトログラムベースのマスクの制約を解消し、波形上でのエンドツーエンド訓練を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。