Skip to main content
QUICK REVIEW

[论文解读] SoundStorm: Efficient Parallel Audio Generation

Zalán Borsos, Matt Sharifi|arXiv (Cornell University)|May 16, 2023
Music and Audio Processing被引用 17
一句话总结

SoundStorm 是一个非自回归、RVQ 感知的音频生成器,它以语义标记为条件,产生达到 AudioLM 水平质量的音频,但速度快两个数量级,使长形式对话合成和可扩展并行解码成为可能。

ABSTRACT

We present SoundStorm, a model for efficient, non-autoregressive audio generation. SoundStorm receives as input the semantic tokens of AudioLM, and relies on bidirectional attention and confidence-based parallel decoding to generate the tokens of a neural audio codec. Compared to the autoregressive generation approach of AudioLM, our model produces audio of the same quality and with higher consistency in voice and acoustic conditions, while being two orders of magnitude faster. SoundStorm generates 30 seconds of audio in 0.5 seconds on a TPU-v4. We demonstrate the ability of our model to scale audio generation to longer sequences by synthesizing high-quality, natural dialogue segments, given a transcript annotated with speaker turns and a short prompt with the speakers' voices.

研究动机与目标

  • 通过解决 RVQ 令牌序列自注意力的二乘成本来推动高效的长序列音频生成。
  • 开发一种架构和训练方案,利用分层 RVQ 结构实现并行、按等级的令牌预测。
  • 实现 AudioLM 的即插即用的声学生成器替换,并演示带受控提示的多说话人对话合成。

提出的方法

  • 使用双向 Conformer 预测多级 RVQ 令牌,条件化于 AudioLM 提供的语义标记。
  • 将条件令牌与 SoundStream 帧令牌交错,按帧对嵌入求和,并为每个 RVQ 级别使用专用输出头。
  • 采用受 MaskGIT 启发的掩码与基于置信度的迭代解码,扩展到 RVQ 级别,采用自上而下的逐级进展。
  • 以匹配推理的掩码方案进行训练:对某一级别采样一个 RVQ 级别,在该级别和所有更细级别的部分令牌上进行掩码,只对该级别的被掩码令牌计算损失。
  • 在每个 RVQ 级别进行若干次迭代解码;在被掩码的位置对多个候选进行采样,并以对该级别的每次迭代的贪婪解码作为最终结果。

实验结果

研究问题

  • RQ1并行的非自回归解码 RVQ 令牌序列是否可以在显著减少合成时间的同时达到 AudioLM 相近的音频质量?
  • RQ2利用分层 RVQ 结构进行逐级掩码与解码,是否能改善长序列音频的一致性和语音保真?
  • RQ3SoundStorm 在多轮自然对话合成中,在受控说话人提示和逐字稿条件下,能达到何种程度的自然性?

主要发现

  • SoundStorm 在音频质量上与 AudioLM 的声学生成器相当,同时在音质一致性和语音保真方面表现更好。
  • SoundStorm 比 AudioLM 的自回归声学生成器快两个数量级,在 TPU-v4 上大约 0.5 秒的 30 秒音频合成时间。
  • 在对话合成实验中,SoundStorm 实现了自然的多轮对话,带有提示控制的说话身份与语音内容,总计 30 秒合成约 2 秒。
  • 基于掩码、逐级解码的方案使一个 RVQ 级别内可以并行生成多个令牌,在降低计算量的同时保持质量。
  • 音质估计(MOS)显示 SoundStorm 与 AudioLM 相当;WER/CER 指标在若干设置中显示出对 AudioLM 基线的更佳语音可懂度。
  • 与 AudioLM 相比,SoundStorm 的声学一致性漂移减少,特别是在较长的音频序列中。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。