QUICK REVIEW

[论文解读] Fast Timing-Conditioned Latent Audio Diffusion

Zach Evans, CJ Carr|arXiv (Cornell University)|Feb 7, 2024

Music and Audio Processing被引用 6

一句话总结

本论文提出 Stable Audio，一种基于文本和时序条件的潜在扩散模型，用以生成长篇、可变长度的44.1kHz立体声音频（最长95秒），在A100 GPU上具有快速推理能力，能够根据提示生成结构化音乐和立体声效果。

ABSTRACT

Generating long-form 44.1kHz stereo audio from text prompts can be computationally demanding. Further, most previous works do not tackle that music and sound effects naturally vary in their duration. Our research focuses on the efficient generation of long-form, variable-length stereo music and sounds at 44.1kHz using text prompts with a generative model. Stable Audio is based on latent diffusion, with its latent defined by a fully-convolutional variational autoencoder. It is conditioned on text prompts as well as timing embeddings, allowing for fine control over both the content and length of the generated music and sounds. Stable Audio is capable of rendering stereo signals of up to 95 sec at 44.1kHz in 8 sec on an A100 GPU. Despite its compute efficiency and fast inference, it is one of the best in two public text-to-music and -audio benchmarks and, differently from state-of-the-art models, can generate music with structure and stereo sounds.

研究动机与目标

激发从文本提示高效生成44.1kHz、长篇且可变长度的立体声音频。
通过时序嵌入实现对内容与时长的双重控制。
开发并评估一个支持立体声输出与可变长度的潜在扩散框架。
提出用于长篇全带宽立体声音频的新评估指标。
展示该模型在长篇文本到音频任务上达到具有竞争力或最先进的结果。

提出的方法

使用全卷积变分自编码器将44.1kHz立体声音频编码为一个1024的潜在表示。
通过基于 CLAP 的嵌入将扩散 U-Net 与文本提示条件化。
引入逐秒学习的时序嵌入，使训练窗口内能够生成可变长度的输出。
训练一个具有9.07亿参数的扩散 U-Net，带有对条件信号的交叉注意力以及基于 FiLM 的时间步条件。
在数据集上从头训练一个 CLAP 文本编码器；在推理阶段使用无分类器引导的指导，进行100个扩散步骤。
在A100 GPU上，8秒内渲染高达95秒、44.1kHz的立体声音频。

实验结果

研究问题

RQ1潜在扩散是否能有效从文本提示生成44.1kHz的长篇、可变长度立体声音频？
RQ2时序条件是否能够可靠地控制输出长度，并让静默尾部填充未使用的部分？
RQ3在长篇任务中，音质、文本对齐和立体声准确度与最先进模型相比如何？
RQ4评价长篇全带宽立体声音频生成的有效指标有哪些？
RQ5该模型是否能够生成具有引子、发展与尾声的结构化音乐？

主要发现

Stable Audio 能在 A100 GPU 上在 8 秒内渲染高达95秒、44.1kHz 的立体声音频。
该模型在长篇 MusicCaps 与 AudioCaps 评估上取得具有竞争力或最先进的结果。
时序条件可靠地控制输出长度，因数据分布在中等长度附近有一定方差。
在 MusicCaps 上，该模型在音质和文本对齐方面优于若干基线，并在立体声音乐生成方面保持竞争力。
定性来看，Stable Audio 展示了结构化音乐（引子、发展、尾声）和立体声音效。
该方法通过在推理时超出请求持续时间后用静音填充，实现可变长度输出。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。