Skip to main content
QUICK REVIEW

[論文レビュー] Moisesdb: A dataset for source separation beyond 4-stems

Igor Gadelha Pereira, Felipe Araújo|arXiv (Cornell University)|Jul 29, 2023
Speech and Audio Processing被引用数 8
ひとこと要約

MoisesDBは240トラックのマルチトラックデータセットと、従来の4ストムを超えるソース分離を可能にする細かなストム分類法を導入し、Pythonライブラリとベースライン結果を提供します。

ABSTRACT

In this paper, we introduce the MoisesDB dataset for musical source separation. It consists of 240 tracks from 45 artists, covering twelve musical genres. For each song, we provide its individual audio sources, organized in a two-level hierarchical taxonomy of stems. This will facilitate building and evaluating fine-grained source separation systems that go beyond the limitation of using four stems (drums, bass, other, and vocals) due to lack of data. To facilitate the adoption of this dataset, we publish an easy-to-use Python library to download, process and use MoisesDB. Alongside a thorough documentation and analysis of the dataset contents, this work provides baseline results for open-source separation models for varying separation granularities (four, five, and six stems), and discuss their results.

研究の動機と目的

  • 音楽のソース分離において一般的な4ストム設定を超える、より大規模で詳細な公開データの必要性を動機づける。
  • 現実のミキシングワークフローに合わせた階層的分類を備えたマルチトラックデータセットを提供し、より細かな分離を可能にする。
  • さまざまなストムの細分性に対してモデルの開発と評価を促進するツールとベースライン結果を提供する。
  • データの収録・マスタリングの特性と商業リリースとの差異に関する分布シフトの可能性を議論する。

提案手法

  • 12ジャンルから45–47アーティストの240曲を、個々のトラックを2層階層のストム分類に整理して組み立てる。
  • 未マスタリングのステレオミックスと、録音・ミキシングワークフローを反映した追加ストム構成を提供する。
  • MoisesDBデータからストムとミックスをダウンロード・処理・構築するPythonライブラリを公開する。
  • 4、5、6ストム構成で、オラクルマスク(IBM、IRM、MWF)とオープンソースモデル(HT-Demucs、Spleeter)を用いたベースライン分離性能をベンチマークする。
  • ストムとソースの分布、ラウドネスとダイナミックレンジ、データセットがモデル学習に及ぼす影響を分析として報告する。
Figure 1 : Artist distribution of MoisesDB.
Figure 1 : Artist distribution of MoisesDB.

実験結果

リサーチクエスチョン

  • RQ1詳細なストム分類法を備えた公開データセットは、4ストム超の分離学習をどのように支援できるか?
  • RQ2MoisesDBの特性(サイズ、ジャンル、ストム分類、トラック分布)はモデルの訓練と評価にどのような影響を与えるか?
  • RQ34、5、6ストム構成でのベースライン分離モデルは、オラクルマスキング法と比較してどの程度性能を示すか?
  • RQ4このデータセットでのソース分離の訓練と一般化に影響を与える実務的な考慮事項(録音・マスタリング)は何か?

主な発見

  • MoisesDBは12ジャンルにまたがる240トラックと階層的ストム分類法を提供し、4ストムを超える分離を可能にする。
  • データセットにはボーカル、ドラム、ベース、ギター、ピアノ、その他など、トラックごとに表現の異なる複数のストムグループが含まれる。
  • ベースライン結果は4/5/6ストムでHT-DemucsとSpleeterの性能を、IBM、IRM、MWFなどのオラクル手法と比較して示し、非公開・より細かな訓練データのギャップと潜在的な利益を明らかにする。
  • MoisesDBの録音は未マスタリングのステレオミックスであり、商業的なマスタ済みリリースと分布のシフトを生じさせる。しかしこのようなデータで訓練したモデルでも、ある程度はマスタリング済みコンテンツへ一般化できる。
  • ストム作成とミックス生成を促進するPythonライブラリが提供され、MLワークフローへの採用を容易にする。
Figure 2 : Genre distribution of MoisesDB.
Figure 2 : Genre distribution of MoisesDB.

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。