Skip to main content
QUICK REVIEW

[论文解读] SingSong: Generating musical accompaniments from singing

Chris Donahue, Antoine Caillon|arXiv (Cornell University)|Jan 30, 2023
Speech and Audio Processing参考文献 30被引用 8
一句话总结

SingSong 通过在源分离的歌声-乐器对上训练条件音频生成模型,并将 AudioLM 适配为音频到音频生成,从而为输入的歌声生成伴随的器乐音乐。它对分离歌声的泛化能力更强,且在听众偏好上优于强基线检索方法。

ABSTRACT

We present SingSong, a system that generates instrumental music to accompany input vocals, potentially offering musicians and non-musicians alike an intuitive new way to create music featuring their own voice. To accomplish this, we build on recent developments in musical source separation and audio generation. Specifically, we apply a state-of-the-art source separation algorithm to a large corpus of music audio to produce aligned pairs of vocals and instrumental sources. Then, we adapt AudioLM (Borsos et al., 2022) -- a state-of-the-art approach for unconditional audio generation -- to be suitable for conditional "audio-to-audio" generation tasks, and train it on the source-separated (vocal, instrumental) pairs. In a pairwise comparison with the same vocal inputs, listeners expressed a significant preference for instrumentals generated by SingSong compared to those from a strong retrieval baseline. Sound examples at https://g.co/magenta/singsong

研究动机与目标

  • 通过让人们用自己的歌声来生成伴奏,直观地激发音乐创作的直觉
  • 利用最先进的源分离技术,创建配对的歌声-器乐数据用于训练
  • 将无条件音频生成模型(AudioLM)适配为条件化、音频到音频的设定
  • 解决从源分离训练数据到真实世界分离歌声的泛化问题
  • 评估感知质量并为提高生成伴奏的清晰度和连贯性提供指南

提出的方法

  • 通过对1百万条曲目应用现成的源分离算法,创建大规模配对数据以获得对齐的歌声和器乐源
  • 将 AudioLM 适配为条件化的音频到音频框架,以在源分离对上训练,给定歌声生成器乐
  • 通过研究歌声表征(语义代码和粗粒度声学代码)来对输入进行特征化,并引入噪声以掩盖源伪影以获得更好的泛化
  • 训练一个序列到序列模型(基于 T5 的编码-解码器)将歌声特征映射到器乐的语义和粗粒度声学代码,然后通过 SoundStream 解码成波形
  • 使用多阶段生成流程:在歌声特征条件下采样语义和粗粒度代码,然后在波形重建前用粗-细声学代码进行细化;将生成的器乐与输入歌声混合
  • 尝试不同的特征化策略(Noisy、SA-SA、S-SA 等)和模型尺度(Base vs XL),以优化对分离歌声的泛化

实验结果

研究问题

  • RQ1一个生成模型是否可以以歌声输入为条件,实时生成连贯的器乐伴奏?
  • RQ2使用源分离数据进行训练,是否能在真实世界的分离歌声上有效地进行音频到音频的伴奏生成?
  • RQ3哪种歌声条件化特征最能在从源分离训练数据到分离歌声输入的泛化中表现最好?
  • RQ4模型规模和特征化选择如何影响感知质量和伴奏生成的泛化差距?
  • RQ5与基于检索的基线相比,SingSong 在人类听众对音乐匹配性的评判中表现如何?

主要发现

  • 听众显著偏好 SingSong 的器乐部分,相对于同一歌声的强检索基线
  • 表现最佳的配置(Noisy / S-SA)在分离歌声的泛化方面有显著提升(相对于对 naive AudioLM 的适配,FAD_i 提升了55%)
  • 将模型扩大到更大版本(SingSong-XL)在听感测试中相对于基础模型有感知提升
  • 从条件中去除歌声的粗粒度声学编码(S-SA)或对歌声加入噪声有助于提升泛化能力并稳定训练
  • 器乐在打击/内容一致性方面通常比和声元素更强,表明在声学条件化中提升和声上下文的空间

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。