[論文レビュー] AudioLDM: Text-to-Audio Generation with Latent Diffusion Models
AudioLDM は latent diffusion を CLAP-aligned latent space にて用い、音声のみの訓練でテキスト-to-audio 生成を行い、最先端の結果を達成し、ゼロショット音声操作を可能にする。
Text-to-audio (TTA) system has recently gained attention for its ability to synthesize general audio based on text descriptions. However, previous studies in TTA have limited generation quality with high computational costs. In this study, we propose AudioLDM, a TTA system that is built on a latent space to learn the continuous audio representations from contrastive language-audio pretraining (CLAP) latents. The pretrained CLAP models enable us to train LDMs with audio embedding while providing text embedding as a condition during sampling. By learning the latent representations of audio signals and their compositions without modeling the cross-modal relationship, AudioLDM is advantageous in both generation quality and computational efficiency. Trained on AudioCaps with a single GPU, AudioLDM achieves state-of-the-art TTA performance measured by both objective and subjective metrics (e.g., frechet distance). Moreover, AudioLDM is the first TTA system that enables various text-guided audio manipulations (e.g., style transfer) in a zero-shot fashion. Our implementation and demos are available at https://audioldm.github.io.
研究の動機と目的
- 高品質で効率的なテキスト-to-audio generation を、ラベルベースまたはペアデータアプローチを超えて動機付ける。
- サンプリング時にテキスト条件付けを行う音声埋め込み(CLAP)で訓練された潜在拡散モデルを提案する。
- 音声のみの訓練データを活用して大規模なテキスト-音声ペアデータセットの必要性を排除する。
- スタイル転送、インペインティング、超解像などのゼロショットのテキスト指向音声操作を可能にする。
提案手法
- melスペクトログラムVAE によって学習された圧縮メルスペクトログラム潜在空間で潜在拡散モデルを訓練する。
- CLAP を用いて音声埋め込み E^x とテキスト埋め込み E^y を取得し、結合空間で整列させる。
- 訓練時には E^x で、テキストから音声生成サンプリング時には E^y で LDM を条件付ける。
- 再加重されたノイズ推定目的関数 L_n(θ) で最適化し、サンプリング時には分類子なしガイダンスを適用する。
- 音声条件付き拡張(audio mixup)を用いて訓練データを豊かにし、テキスト拡張を行わない。
- VAE デコーダで潜在出力をメルスペクトログラムへデコードし、HiFi-GAN で波形へ;圧縮 r の異なる組み合わせを試す(デフォルト r=4)。
- 潜在 z_N からの拡張拡張で、拡散逆過程と潜在マスキングを用いてスタイル転送やインペインティングなどのゼロショットのテキスト指向音声操作を実演する。
実験結果
リサーチクエスチョン
- RQ1CLAP 埋め込みを用いた音声のみの訓練データで AudioLDM はテキストから音声生成を最先端レベルに達成できるか?
- RQ2音声埋め込み(テキストではなく)で拡散モデルを条件付けることは、TTA 生成の安定性と品質を向上させるか?
- RQ3潜在圧縮レベル(r)が生成品質と効率に与える影響はどれか?
- RQ4タスク固有の微調整なしにスタイル転送、インペインティング、超解像などのゼロショットのテキスト指向音声操作を実行できるか?
主な発見
| Model | Text Data | Use CLAP | Params | Duration (h) | FD ↓ | IS ↑ | KL ↓ | FAD ↓ | OVL ↑ | REL ↑ |
|---|---|---|---|---|---|---|---|---|---|---|
| Ground truth | - | - | - | - | 83.61±1.1 | - | - | - | 80.11±1.2 | - |
| DiffSound | ✓ | ✗ | 400 M | 5420 | 47.68 | 4.01 | 2.52 | 7.75 | 45.00±2.6 | 43.83±2.3 |
| AudioLDM-S-Full-RoBERTa | ✓ | ✗ | 181 M | 145 | 32.13 | 4.02 | 3.25 | 5.89 | - | - |
| AudioLDM-S | ✗ | ✓ | 181 M | 145 | 29.48 | 6.90 | 1.97 | 2.43 | 63.41±1.4 | 64.83±0.9 |
| AudioLDM-L | ✗ | ✓ | 739 M | 145 | 27.12 | 7.51 | 1.86 | 2.08 | 64.30±1.6 | 64.72±1.6 |
| AudioLDM-S-Full | ✗ | ✓ | 181 M | 8886 | 23.47 | 7.57 | 1.98 | 2.32 | - | - |
| AudioLDM-L-Full | ✗ | ✓ | 739 M | 8886 | 23.31 | 8.13 | 1.59 | 1.96 | 65.91±1.0 | 65.97±1.6 |
- AudioLDM-S および AudioLDM-L は DiffSound を AudioCaps で客観的および主観的指標の両方で上回る(音声のみの訓練)。
- モデル容量を増やす(AudioLDM-L)と結果はさらに改善され、追加データセットを組み込む(AudioLDM-L-Full)と品質が最良となる(FD 23.31)。
- CLAP ベースの条件付けにより、言語-音声ペアなしで LDM を訓練でき、音声埋め込み(E^x)を条件信号として使用することで高い性能を達成。
- AudioLDM-L-Full は FD 23.31, IS 8.13, KL 1.59, FAD 1.96, OVL 65.91, REL 65.97 を AudioCaps で達成し、DiffSound (FD 47.68) を上回る。
- ゼロショットの音声操作(スタイル転送、インペインティング、超解像)は、タスク特定の微調整なしで実演され、拡散の逆過程と潜在マスキングを使用。
- 圧縮レベル r=4 は品質と効率の良いバランスを提供(より高い r は性能を低下させる; 非常に低い r は訓練を妨げることがある)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。