[論文レビュー] AudioLM: a Language Modeling Approach to Audio Generation
AudioLM はセマンティックトークンと音響トークンのハイブリッドトークン空間を用いた音声生成を言語モデリング問題として扱い、長期的一貫性と高品質な合成を実現します。転写がなくても、セマンティックトークンが内容を支配し、音響トークンが話者・録音の詳細を符号化することを示し、短いプロンプトからのコントロール可能な継続を可能にします。
We introduce AudioLM, a framework for high-quality audio generation with long-term consistency. AudioLM maps the input audio to a sequence of discrete tokens and casts audio generation as a language modeling task in this representation space. We show how existing audio tokenizers provide different trade-offs between reconstruction quality and long-term structure, and we propose a hybrid tokenization scheme to achieve both objectives. Namely, we leverage the discretized activations of a masked language model pre-trained on audio to capture long-term structure and the discrete codes produced by a neural audio codec to achieve high-quality synthesis. By training on large corpora of raw audio waveforms, AudioLM learns to generate natural and coherent continuations given short prompts. When trained on speech, and without any transcript or annotation, AudioLM generates syntactically and semantically plausible speech continuations while also maintaining speaker identity and prosody for unseen speakers. Furthermore, we demonstrate how our approach extends beyond speech by generating coherent piano music continuations, despite being trained without any symbolic representation of music.
研究の動機と目的
- 高品質で長期的一貫性のある音声生成を、文字起こしや注釈を必要とせず、音声と音楽に跨って動機づける。
- 再構成品質と構造のバランスを取るためのセマンティックトークンと音響トークンを組み合わせたハイブリッドトークン化方式を提案する。
- まずセマンティックトークンをモデル化し、次にそれを条件として音響トークン生成を行う階層的Transformerベースのモデルを開発し、整合性のある音声継続を生成する。
- このアプローチをスピーチ継続(未知の話者、話者/プロソディの維持)とピアノ継続で評価し、音素識別性と再構成品質の観点からトークンタイプを比較する。
提案手法
- 音声をハイブリッドトークナイザで離散トークン列として表現する:セマンティックトークンは w2v-BERT から、音響トークンは SoundStream から。
- 三段階のデコーダーホロー Transformer モデルを訓練する:ステージ1は長期構造のためのセマンティックトークンをモデル化;ステージ2はセマンティックトークンを条件として粗い音響トークンをモデル化;ステージ3は粗いトークンを条件として細かい音響トークンをモデル化。
- 大規模トークン列の効率的な自己回帰モデリングを可能にするため、音響トークン階層の行優先フラット化を使用する。
- 推定されたトークン列を凍結デトークナイザー・パイプライン(SoundStream + セマンティックトークンデコード)で音声にデコードする。
- 再構成品質を ViSQOL で、音素識別性を ABX で評価してトークンタイプ(セマンティック vs 音響)の比較を行う。
- 推論時に温度に基づくサンプリングを適用し、短いプロンプト( speech は 3 秒)から継続を生成する。
![Figure 1: Overview of the tokenizers used in AudioLM. The acoustic tokens are produced by SoundStream [ 16 ] and enable high-quality audio synthesis. The semantic tokens are derived from representations produced by an intermediate layer of w2v-BERT [ 17 ] and enable long-term structural coherence.](https://ar5iv.labs.arxiv.org/html/2209.03143/assets/x1.png)
実験結果
リサーチクエスチョン
- RQ1AudioLM は文字起こしを必要とせず、話者アイデンティティとプロソディを保持しつつ、コヒーレントで意味的に妥当な音声を生成できるか。
- RQ2セマンティックトークンと音響トークンは、長期的一貫性と高忠実度の音声合成の双方を達成するために補完し合うのか。
- RQ3フレームワークは Symbolic 表現なしで、音声以外のコヒーレントなピアノ音楽生成へ拡張できるのか。
- RQ4セマンティックトークンベースのモデルと音響トークンベースのモデルは、音素識別性と再構成品質の観点でどのように性能が異なるのか。
- RQ5AudioLM生成音声を検出するディテクター分類器を訓練して悪用を抑止できるのか。
主な発見
| トークン化 | ビットレート (bps) | 音素識別性(内側/外側)(↓) | 再構成品質(↑) |
|---|---|---|---|
| Semantic (w2v-BERT) | 250 | 6.7 / 7.6 | 1.1 |
| Semantic (w2v-BERT) | 6000 | 5.6 / 6.2 | 1.4 |
| Acoustic (SoundStream) | 2000 | 22.4 / 28.7 | 3.3 |
| Acoustic (SoundStream) | 6000 | 17.8 / 26.6 | 3.9 |
- AudioLM は 3 秒のプロンプトから話者の声と反響/ノイズ条件を維持した、統語・意味的に妥当な継続を得られる。
- 意味的トークンは言語内容を伝え、長期的一貫性を可能にする一方、音響トークンは話者認識と音声品質を保持する;どちら単独では最適な両特性を実現しない。
- 音響生成は意味トークンを条件とすると内容を保持するが音素識別性は限られ、意味のみの生成は再構成品質が低い。両方を組み合わせると全体的な結果が向上する。
- Libri-60k で訓練すると、未知の話者・環境に対して多様で一貫した継続を生成し、ピアノ音楽にも整合的な旋律・和声構造を拡張できる。
- 論文は AudioLM 生成音声由来の転写物に関する ASR-based WER/CER の低誤差を報告しており、意味内容の保持と音響マッピングの堅牢性を示唆する。
- 誤用対策として、AudioLM 生成音声を識別する検出器分類器を訓練しており、緩和策を示している。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。