[论文解读] AudioGen: Textually Guided Audio Generation
AudioGen 是一个自回归模型,通过学习离散音频表示并使用基于 Transformer 的语言模型,在文本条件下生成高保真音频,结合分类器自由引导和多流策略以提升效率和可组合性。
We tackle the problem of generating audio samples conditioned on descriptive text captions. In this work, we propose AaudioGen, an auto-regressive generative model that generates audio samples conditioned on text inputs. AudioGen operates on a learnt discrete audio representation. The task of text-to-audio generation poses multiple challenges. Due to the way audio travels through a medium, differentiating ``objects'' can be a difficult task (e.g., separating multiple people simultaneously speaking). This is further complicated by real-world recording conditions (e.g., background noise, reverberation, etc.). Scarce text annotations impose another constraint, limiting the ability to scale models. Finally, modeling high-fidelity audio requires encoding audio at high sampling rate, leading to extremely long sequences. To alleviate the aforementioned challenges we propose an augmentation technique that mixes different audio samples, driving the model to internally learn to separate multiple sources. We curated 10 datasets containing different types of audio and text annotations to handle the scarcity of text-audio data points. For faster inference, we explore the use of multi-stream modeling, allowing the use of shorter sequences while maintaining a similar bitrate and perceptual quality. We apply classifier-free guidance to improve adherence to text. Comparing to the evaluated baselines, AudioGen outperforms over both objective and subjective metrics. Finally, we explore the ability of the proposed method to generate audio continuation conditionally and unconditionally. Samples: https://felixkreuk.github.io/audiogen
研究动机与目标
- 以高保真、可控性和可组合性为目标,推动文本到音频生成。
- 开发在学习的离散音频表示上运行的自回归模型。
- 利用预训练文本编码器以推广到未见文本概念。
- 通过引导和即时音频混合来提升文本遵循性和可组合性。
- 展示音频连续能力(有条件和无条件)。
提出的方法
- 用自编码器对原始音频进行离散序列编码(E, Q, G),并通过重构和感知损失进行训练。
- 在文本上以预训练的 T5 文本编码器和文本-音频跨注意力机制为条件,训练基于 Transformer 的音频语言模型(ALM)。
- 在采样期间应用分类器自由引导(CFG),以在质量和多样性之间取得平衡。
- 引入即时文本和音频混合增强,以提高可组合性和泛化能力。
- 探索使用残差矢量量化的多流音频输入以降低序列长度并提高速度。
- 使用客观指标(FAD, KL)和主观 MOS 风格评分进行评估;与 DiffSound 进行比较并消融 CFG 和多流设计。
实验结果
研究问题
- RQ1自回归模型是否能生成以描述性文本为条件的高保真音频?
- RQ2利用学习到的离散音频表示是否能更好地泛化到未见的文本概念?
- RQ3分类器自由引导是否能提高对文本的遵循性,同时保持多样性?
- RQ4即时文本-音频混合是否能改善可组合性和所生成音频的质量?
- RQ5多流建模对保真度、比特率和推理速度的影响是什么?
主要发现
| 模型 | 参数量 | 增强 | 文本条件化 | OVL | Rel. | FAD | KL |
|---|---|---|---|---|---|---|---|
| Reference | - | - | - | 92.08 ± 1.16 | 92.97 ± 0.85 | - | - |
| DiffSound | 400M | MBTG | CLIP | 65.68 ± 1.58 | 55.91 ± 1.75 | 7.39 | 2.57 |
| AudioGen-base | 285M | - | T5-base | 70.85 ± 1.06 | 63.23 ± 1.65 | 2.84 | 2.14 |
| AudioGen-base Mix | 285M | Mix | T5-base | 71.68 ± 1.89 | 66.01 ± 1.79 | 3.13 | 2.09 |
| AudioGen-large | 1B | Mix | T5-large | 71.85 ± 1.07 | 68.73 ± 1.61 | 1.82 | 1.69 |
- AudioGen-base 在客观和主观指标上优于 DiffSound 基线,且使用的参数更少。
- AudioGen-large 进一步在客观(FAD、KL)和主观(OVL、Rel.)分数上超越 DiffSound 和 AudioGen-base。
- 基于混合的增强相较于非混合训练提升文本相关性(KL)和组合复杂度。
- 带有微调 gamma 的分类器自由引导在文本遵循性和样本质量上表现更好,达到比无条件采样更好的权衡。
- 多流配置在速度上有提升,对质量影响不同,其中单流基模型在客观分数上最好,而多流变体提供推理时间收益。
- 音频续写实验表明文本条件生成仍受提示长度和文本引导的影响,能够对短提示实现条件续写,且音频提示越短,提示效应越强。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。