[论文解读] AudioLM: a Language Modeling Approach to Audio Generation
AudioLM 将音频生成视为在语义令牌和声学令牌混合的令牌空间上的语言模型任务,在不需要转录文本的情况下实现长期连贯性和高质量合成,适用于语音和钢琴音乐。
We introduce AudioLM, a framework for high-quality audio generation with long-term consistency. AudioLM maps the input audio to a sequence of discrete tokens and casts audio generation as a language modeling task in this representation space. We show how existing audio tokenizers provide different trade-offs between reconstruction quality and long-term structure, and we propose a hybrid tokenization scheme to achieve both objectives. Namely, we leverage the discretized activations of a masked language model pre-trained on audio to capture long-term structure and the discrete codes produced by a neural audio codec to achieve high-quality synthesis. By training on large corpora of raw audio waveforms, AudioLM learns to generate natural and coherent continuations given short prompts. When trained on speech, and without any transcript or annotation, AudioLM generates syntactically and semantically plausible speech continuations while also maintaining speaker identity and prosody for unseen speakers. Furthermore, we demonstrate how our approach extends beyond speech by generating coherent piano music continuations, despite being trained without any symbolic representation of music.
研究动机与目标
- 在无需转录或注释的前提下,推动高质量、长期连贯的语音和音乐音频生成。
- 提出一种混合令牌化方案,将语义令牌与声学令牌结合,以在重建质量与结构之间取得平衡。
- 开发一个分层 Transformer 模型,先对语义令牌建模,然后条件化声学令牌生成以产生连贯的音频延续。
- 在语音延续(未见说话者,保留说话者/语调)和钢琴延续上评估该方法,并在语音学音素可辨识性和重建质量方面比较不同令牌类型。
提出的方法
- 通过混合分词器将音频表示为离散令牌序列:来自 w2v-BERT 的语义令牌和来自 SoundStream 的声学令牌。
- 训练一个三阶段的解码器独立 Transformer 模型:阶段1 建模语义令牌以获得长期结构;阶段2 在语义令牌条件下对粗略声学令牌进行建模;阶段3 在粗略令牌的条件下对精细声学令牌进行建模。
- 对声学令牌层级进行行优先展开,以便高效自回归建模大规模令牌序列。
- 使用固定参数的去符解码管线(SoundStream 及语义令牌解码的组合)将预测的令牌序列解码回音频。
- 用 ViSQOL 测量重建质量,用 ABX 评估音素可辨识性以比较令牌类型(语义 vs 声学)。
- 推理时应用基于温度的采样,并从短提示(语音3秒)生成延续。
![Figure 1: Overview of the tokenizers used in AudioLM. The acoustic tokens are produced by SoundStream [ 16 ] and enable high-quality audio synthesis. The semantic tokens are derived from representations produced by an intermediate layer of w2v-BERT [ 17 ] and enable long-term structural coherence.](https://ar5iv.labs.arxiv.org/html/2209.03143/assets/x1.png)
实验结果
研究问题
- RQ1AudioLM 是否能够在不需要转录文本的情况下生成连贯且语义上逼真的语音,同时保持说话者身份和语调?
- RQ2语义令牌与声学令牌是否相互补充,以同时实现长期连贯性和高保真音频合成?
- RQ3该框架是否能够扩展到超越语音的、在没有符号表示的情况下生成连贯的钢琴音乐?
- RQ4基于语义令牌的模型与基于声学令牌的模型在音素可辨识性和重建质量方面的表现如何?
- RQ5是否可以检测 AudioLM 生成的语音以减轻潜在的滥用?
主要发现
| 令牌化 | 比特率 (bps) | 音素可辨识性(内部/跨域) (↓) | 重建质量(↑) |
|---|---|---|---|
| Semantic (w2v-BERT) | 250 | 6.7 / 7.6 | 1.1 |
| Semantic (w2v-BERT) | 6000 | 5.6 / 6.2 | 1.4 |
| Acoustic (SoundStream) | 2000 | 22.4 / 28.7 | 3.3 |
| Acoustic (SoundStream) | 6000 | 17.8 / 26.6 | 3.9 |
- AudioLM 能在3秒提示下生成在句法和语义上都合理的语音延续,同时保持说话者声音及混响/噪声条件。
- 语义令牌承载语言内容并实现长期连贯性,而声学令牌保留说话者身份和音频质量;单独使用都不能同时实现这两个特性。
- 在语义令牌条件下的声学生成保持内容但音素可辨识性有限,而仅语义生成的重建质量较差;结合两者能获得更好的整体效果。
- 在 Libri-60k 上训练时,AudioLM 能为未见说话者和环境生成多样且连贯的延续,并扩展到钢琴音乐,具备连贯的旋律与和声结构。
- 论文报告了基于 ASR 的 WER/CER 结果,显示从 AudioLM 生成的语音得到的转录文本错误很低,表明语义内容保留准确且声学映射鲁棒。
- 测试一个检测器分类器以识别 AudioLM 生成的语音,以应对潜在滥用,展示了一个缓解步骤。

更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。