[论文解读] It's Raw! Audio Generation with State-Space Models
SaShiMi,基于SSM的多尺度波形模型,通过稳定化S4以实现自回归生成,达到无条件音频生成的最新水平,同时提升基于扩散的非自回归生成。
Developing architectures suitable for modeling raw audio is a challenging problem due to the high sampling rates of audio waveforms. Standard sequence modeling approaches like RNNs and CNNs have previously been tailored to fit the demands of audio, but the resultant architectures make undesirable computational tradeoffs and struggle to model waveforms effectively. We propose SaShiMi, a new multi-scale architecture for waveform modeling built around the recently introduced S4 model for long sequence modeling. We identify that S4 can be unstable during autoregressive generation, and provide a simple improvement to its parameterization by drawing connections to Hurwitz matrices. SaShiMi yields state-of-the-art performance for unconditional waveform generation in the autoregressive setting. Additionally, SaShiMi improves non-autoregressive generation performance when used as the backbone architecture for a diffusion model. Compared to prior architectures in the autoregressive generation setting, SaShiMi generates piano and speech waveforms which humans find more musical and coherent respectively, e.g. 2x better mean opinion scores than WaveNet on an unconditional speech generation task. On a music generation task, SaShiMi outperforms WaveNet on density estimation and speed at both training and inference even when using 3x fewer parameters. Code can be found at https://github.com/HazyResearch/state-spaces and samples at https://hazyresearch.stanford.edu/sashimi-examples.
研究动机与目标
- 解决以全局一致性生成高速度原始音频的挑战。
- 提出 SaShiMi,一种基于多尺度 S4 的架构,并针对自回归生成的稳定性进行改进。
- 证明 SaShiMi 在无条件自回归音频任务中的优越性,以及作为非自回归扩散模型骨干的潜力。
提出的方法
- 以 S4 状态空间模型作为长期上下文波形建模的核心构建块。
- 通过将 A 参数化为 Hurwitz 兼容的形式(Lambda - p p^*)来稳定自回归生成的 S4。
- 在 S4 块之间引入多尺度池化,以捕捉跨尺度结构。
- 实现对 S4 的双向松弛,以提升非自回归能力。
- 通过将正向和反向 S4 输出连接起来,为非自回归任务采用简单的双向 S4 变体。
- 通过在 DiffWave 中替换 WaveNet,展示 SaShiMi 作为扩散模型骨干的潜力。
实验结果
研究问题
- RQ1在具备适当稳定性保证的前提下,基于 SSM 的架构是否比 WaveNet 或 SampleRNN 更有效地建模无界音频上下文?
- RQ2多尺度池化策略是否能提升自回归音频生成的建模质量与效率?
- RQ3SaShiMi 能否作为扩散基波形生成的强大非自回归骨干网络?
- RQ4与因果 S4 相比,双向 S4 如何影响非自回归生成性能?
- RQ5在长上下文音频生成中,相对基线,参数量、训练速度和推理速度的权衡有哪些?
主要发现
- SaShiMi 在无条件音乐与语音生成方面超越了领先的自回归基线(SampleRNN、WaveNet),在似然度和处理更长上下文方面表现更好。
- 在 Beethoven 与 YouTubeMix 数据集上,SaShiMi 相对于基线实现了更低的 NLL 和更高的 MOS/质量指标,且具有更长的上下文训练(例如上下文长度高达 128k 步)。
- 在 SC09 无条件语音生成中,SaShiMi 在人类感知的质量与可懂度评分方面显著高于基于 WaveNet 的模型。
- 在 DiffWave 中以 SaShiMi 取代 WaveNet 作为骨干,可提升基于扩散的非自回归生成,且在不进行额外微调的情况下达到最先进的结果。
- 稳定化的 S4 参数化(Lambda - p p^*)带来稳定的自回归生成,解决了原始 S4 公式中观察到的不稳定性。
- 该架构的多尺度池化在计算和建模方面优于各向同性的 S4 堆叠,训练和推理速度更快,性能与质量相当或更好。
- 双向 S4 提升非自回归性能,优于单向配置。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。