QUICK REVIEW

[论文解读] Demucs: Deep Extractor for Music Sources with extra unlabeled data remixed

Alexandre Défossez, Nicolas Usunier|arXiv (Cornell University)|Sep 3, 2019

Speech and Audio Processing参考文献 34被引用 57

一句话总结

本文提出了一种基于波形的源分离模型（Demucs），优于 Wave-U-Net，并引入一种半监督的混音方案，利用未标注的音乐进行训练。

ABSTRACT

We study the problem of source separation for music using deep learning with four known sources: drums, bass, vocals and other accompaniments. State-of-the-art approaches predict soft masks over mixture spectrograms while methods working on the waveform are lagging behind as measured on the standard MusDB benchmark. Our contribution is two fold. (i) We introduce a simple convolutional and recurrent model that outperforms the state-of-the-art model on waveforms, that is, Wave-U-Net, by 1.6 points of SDR (signal to distortion ratio). (ii) We propose a new scheme to leverage unlabeled music. We train a first model to extract parts with at least one source silent in unlabeled tracks, for instance without bass. We remix this extract with a bass line taken from the supervised dataset to form a new weakly supervised training example. Combining our architecture and scheme, we show that waveform methods can play in the same ballpark as spectrogram ones.

研究动机与目标

开发一个基于波形的音乐源分离模型，在 MusDB 上达到或超过基于频谱的方法。
在波形数据上提升相对于 Wave-U-Net 基线的性能。
引入一种半监督的数据增强方法，通过将提取的部分与有监督数据中的分离源重新混音来利用未标注的歌曲。

提出的方法

提出一个简单的卷积与循环模型，用于端到端波形源分离。
训练对应鼓、贝斯、声乐和其他的四源输出。
采用端到端训练，避免 STFT/ISTFT 相位假设带来的伪影。
引入一种半监督的重新混音方案：在未标注的音轨中训练一个第一阶段模型，提取至少包含一个静默源的部分，将该提取与来自有监督数据集的贝斯线重新混音，以创建弱监督训练样本。
将波形模型的性能与基于频谱的方法进行比较，显示波形方法具有竞争力。

实验结果

研究问题

RQ1基于波形的模型是否能在音乐源分离上达到或接近最先进水平，相较于基于频谱的方法？
RQ2通过基于重新混音的半监督方案利用未标注音乐，是否能提升基于波形的分离性能？
RQ3在 MusDB 基准测试中，所提出的 Demucs 架构相对于 Wave-U-Net 基线的表现如何？
RQ4端到端波形训练相较于重用相位的频谱方法，在源分离中有哪些优点与局限？

主要发现

Demucs 在基于波形的源分离上比最先进的 Wave-U-Net 高出 1.6 SDR。
利用 2,000 首未标注歌曲的半监督数据增强方案提高了性能。
带有混音方案的波形模型能够达到与基于频谱的方法相近的性能。
该方法通过允许在波形上直接进行端到端训练，解决了基于频谱掩码的局限性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。