Skip to main content
QUICK REVIEW

[论文解读] Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation

Daniel Stoller, Sebastian Ewert|arXiv (Cornell University)|Jun 8, 2018
Speech and Audio Processing被引用 75
一句话总结

本文提出 Wave-U-Net,一种时域、端到端的音频源分离模型,利用多尺度 U-Net 设计处理长时间上下文,解决边界伪影和上采样问题,并与基于频谱的方法相比具有优势。

ABSTRACT

Models for audio source separation usually operate on the magnitude spectrum, which ignores phase information and makes separation performance dependant on hyper-parameters for the spectral front-end. Therefore, we investigate end-to-end source separation in the time-domain, which allows modelling phase information and avoids fixed spectral transformations. Due to high sampling rates for audio, employing a long temporal input context on the sample level is difficult, but required for high quality separation results because of long-range temporal correlations. In this context, we propose the Wave-U-Net, an adaptation of the U-Net to the one-dimensional time domain, which repeatedly resamples feature maps to compute and combine features at different time scales. We introduce further architectural improvements, including an output layer that enforces source additivity, an upsampling technique and a context-aware prediction framework to reduce output artifacts. Experiments for singing voice separation indicate that our architecture yields a performance comparable to a state-of-the-art spectrogram-based U-Net architecture, given the same data. Finally, we reveal a problem with outliers in the currently used SDR evaluation metrics and suggest reporting rank-based statistics to alleviate this problem.

研究动机与目标

  • 在时域中推动端到端音频源分离,以结合相位信息并避免固定的谱前端。
  • 开发一个一维的 Wave-U-Net,通过下采样和上采样使用多尺度特征以捕捉长程时间依赖。
  • 改进架构以减少伪影,包括提供合适的输入上下文、非混叠上采样,以及一个差分输出层以强制源的可加性。
  • 在歌声和多乐器分离任务上评估该模型,并在可比设置下与基于频谱的 U-Net 进行比较。
  • 讨论评估指标的问题(SDR 离群值),并提出以等级统计量作为解决办法。

提出的方法

  • 将 U-Net 调整为一维时域以实现对混合信号中 K 个源的端到端分离。
  • 通过重复下采样和上采样来与跳跃连接融合多尺度时间特征。
  • 用线性插值替代步进转置卷积,随后再进行普通卷积,以避免上采样伪影。
  • 引入一个差分输出层以强制与混合信号的一致性:S^K = M - sum_{j=1}^{K-1} S^j。
  • 为输出提供输入上下文以避免边界伪影,并采用上下文感知预测。
  • 可选地通过将多个输入通道和输出视为多通道张量,扩展为立体声输入。

实验结果

研究问题

  • RQ1端到端时域模型是否能够有效利用长程时间上下文进行音频源分离?
  • RQ2解决边界伪影和上采样伪影的架构选择是否会提升时域网络的分离质量?
  • RQ3在可比的训练条件下,包括单声道和立体声设置,Wave-U-Net 相对于基于频谱的 U-Net 的表现如何?

主要发现

  • 在与最先进的基于频谱的 U-Net 在相似设置下进行比较时,Wave-U-Net 在歌声和多乐器分离任务上取得了具有竞争力的分离性能。
  • 提供额外的输入上下文可以提高预测质量,尤其是在输出边界处。
  • 使用立体声建模对伴奏有改进,表明通道特定信息有助于分离。
  • 用线性插值替代上采样(而不是转置卷积)有助于避免高频伪影。
  • 差分输出层强制对混合信号的可加性,减少网络的自由度。
  • 研究指出 SDR 基于评估中的离群值,并提出将等级统计量作为鲁棒替代。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。