Skip to main content
QUICK REVIEW

[论文解读] Moisesdb: A dataset for source separation beyond 4-stems

Igor Gadelha Pereira, Felipe Araújo|arXiv (Cornell University)|Jul 29, 2023
Speech and Audio Processing被引用 8
一句话总结

MoisesDB 引入一个具有细粒度主干分类法的240轨道多轨数据集,超越传统四主干的源分离;还包括一个 Python 库和基线结果。

ABSTRACT

In this paper, we introduce the MoisesDB dataset for musical source separation. It consists of 240 tracks from 45 artists, covering twelve musical genres. For each song, we provide its individual audio sources, organized in a two-level hierarchical taxonomy of stems. This will facilitate building and evaluating fine-grained source separation systems that go beyond the limitation of using four stems (drums, bass, other, and vocals) due to lack of data. To facilitate the adoption of this dataset, we publish an easy-to-use Python library to download, process and use MoisesDB. Alongside a thorough documentation and analysis of the dataset contents, this work provides baseline results for open-source separation models for varying separation granularities (four, five, and six stems), and discuss their results.

研究动机与目标

  • 需要更大、更细粒度、公开可用的音乐源分离数据集,超越常见的四主干设置。
  • 提供一个与实际混音工作流对齐的分层主干分类法的多轨数据集,以实现更细粒度的分离。
  • 提供工具与基线结果,推动在不同主干粒度下的模型开发与评估。
  • 讨论数据录音、母带特征及相对于商业发行的潜在分布变化。

提出的方法

  • 从 12 个流派中筛选 45–47 位艺术家的 240 首歌,将单独轨道按两级主干分类法组织。
  • 提供未母带化的立体声混音和反映录音/混音工作流的叠加主干构造。
  • 发布一个 Python 库,用于下载、处理并从 MoisesDB 数据中构建主干与混音。
  • 在 4、5、6 主干配置下,使用 oracle 掩码(IBM、IRM、MWF)和开源模型(HT-Demucs、Spleeter)对基线分离性能进行基准评测。
  • 报告关于主干与源分布、响度与动态范围的分析,以及数据集对模型训练的影响。
Figure 1 : Artist distribution of MoisesDB.
Figure 1 : Artist distribution of MoisesDB.

实验结果

研究问题

  • RQ1公开可用的具有详细主干分类法的数据集如何支持学习分离超过四个主干?
  • RQ2MoisesDB 的特征(规模、流派、主干分类法、轨道分布)是什么,可能如何影响模型训练与评估?
  • RQ3基线分离模型在四、五、六主干配置下的表现与 oracle 掩蔽方法相比如何?
  • RQ4影响在该数据集上进行源分离训练与泛化的实际因素(录音/母带处理)有哪些?

主要发现

  • MoisesDB 提供 240 条轨道、覆盖 12 种流派,具有分层主干分类法,能够实现超越四主干的分离。
  • 数据集包含若干主干组(如人声、鼓、低音、吉他、钢琴、其他),在轨道中的表示不均衡。
  • 基线结果显示 HT-Demucs 与 Spleeter 在 4/5/6 主干配置下的表现,以及 IBM、IRM、MWF 等 oracle 方法,揭示了非公开、粒度更细的数据训练潜在的差距与提升空间。
  • MoisesDB 的录音为未母带化的立体声混音,与商业母带发行存在分布差异;在此类数据上训练的模型在一定程度上仍能泛化到母带内容。
  • 提供一个 Python 库以方便主干创建与混音生成,促使在 ML 工作流中的易于采用。
Figure 2 : Genre distribution of MoisesDB.
Figure 2 : Genre distribution of MoisesDB.

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。