[論文レビュー] Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models
Make-An-Audioはprompt-enhanced diffusionをスペクトログラムオートエンコーダとCLAP表現と組み合わせて最先端のテキストから音声生成を実現し、複数入力モダリティによるX-to-Audioを可能にします。
Large-scale multimodal generative modeling has created milestones in text-to-image and text-to-video generation. Its application to audio still lags behind for two main reasons: the lack of large-scale datasets with high-quality text-audio pairs, and the complexity of modeling long continuous audio data. In this work, we propose Make-An-Audio with a prompt-enhanced diffusion model that addresses these gaps by 1) introducing pseudo prompt enhancement with a distill-then-reprogram approach, it alleviates data scarcity with orders of magnitude concept compositions by using language-free audios; 2) leveraging spectrogram autoencoder to predict the self-supervised audio representation instead of waveforms. Together with robust contrastive language-audio pretraining (CLAP) representations, Make-An-Audio achieves state-of-the-art results in both objective and subjective benchmark evaluation. Moreover, we present its controllability and generalization for X-to-Audio with "No Modality Left Behind", for the first time unlocking the ability to generate high-definition, high-fidelity audios given a user-defined modality input. Audio samples are available at https://Text-to-Audio.github.io
研究の動機と目的
- 蒸留-then-reprogramに基づく疑似プロンプト強化を導入し、テキスト-to-audioにおけるデータ不足に対処する。
- 波形ではなく自己教師付き表現を予測するスペクトログラムオートエンコーダを用いて、長尺の連続音声を効率的にモデル化する。
- 忠実なテキスト-オーディオ整合と高忠実度生成のためにCLAPと潜在拡散モデルを活用する。
- No Modality Left Behindフレームワークの下で、ユーザー定義モダリティ(テキスト、オーディオ、画像、ビデオ)へのX-to-Audio一般化を実証する。
- 標準ベンチマークおよびゼロショット設定において、客観指標(FID、KL、CLAP)と主観MOSスコアの両方を評価する。
提案手法
- テキスト表現を条件としたスペクトログラム潜在空間での潜在拡散を用いる。
- 音声を拡散ベースの生成のための潜在空間に圧縮するスペクトログラムオートエンコーダを用いる。
- 専門家蒸留と動的再プログラミングによる疑似プロンプト強化を導入し、言語非依存の音声データから多様で言語整合性のあるプロンプトを生成する。
- 条件付き生成における忠実度と多様性のバランスを取るためにclassifier-freeガイダンスを採用する。
- テキスト-オーディオの忠実性を向上させるためCLAPベースの整合性で訓練する。
- 生成されたメルスペクトrogramをニューラルボコーダー(HiFi-GAN)で波形に変換する。
実験結果
リサーチクエスチョン
- RQ1疑似プロンプト強化は言語を必要としない大規模データを可能にし、テキスト-to-audio生成を改善できるか?
- RQ2拡散でスペクトログラム潜在表現をモデル化することは、波形ベースのアプローチより高い忠実度とより良いテキスト-オーディオ整合をもたらすか?
- RQ3Make-An-Audioはユーザー定義モダリティ(text, audio, image, video)を用いたX-to-Audioシナリオへ一般化できるか?
- RQ4異なるテキスト表現(CLAP対 LMベースのエンコーダー)がおのテキスト-オーディオ合成性能に与える影響は何か?
- RQ5拡散ベースの生成下での音声インペインティングと個別化テキスト-オーディオ操作の性能はどうか?
主な発見
| モデル | テキスト条件 | パラメータ | FID | KL | CLAP | MOS-Q | MOS-F | FID-Z | KL-Z |
|---|---|---|---|---|---|---|---|---|---|
| Reference | / | / | / | / | 0.526 | 74.7 ± 0.94 | 80.5 ± 1.84 | / | / |
| Diffsound | CLIP | 520M | 7.17 | 3.57 | 0.420 | 67.1 ± 1.03 | 70.9 ± 1.05 | 24.97 | 6.53 |
| Make-An-Audio | CLAP | 332M | 4.61 | 2.79 | 0.482 | 72.5 ± 0.90 | 78.6 ± 1.01 | 17.38 | 6.98 |
| BERT | BERT | 809M | 5.15 | 2.89 | 0.480 | 70.5 ± 0.87 | 77.2 ± 0.98 | 18.75 | 7.01 |
| T5-Large | T5-Large | 563M | 4.83 | 2.81 | 0.486 | 71.8 ± 0.91 | 77.2 ± 0.93 | 17.23 | 7.02 |
| CLIP | CLIP | 576M | 6.45 | 2.91 | 0.444 | 72.1 ± 0.92 | 75.4 ± 0.96 | 17.55 | 7.09 |
- Make-An-AudioはAudioCaptionにおいてテキスト-to-audioで最先端の結果を達成し、FID 4.61、KL 2.79、CLAP 0.482。
- 客観指標(FID、KL、CLAP)および主観MOS測定でベースラインを上回り、例としてMOS-Q 72.5、MOS-F 78.6。
- CLAPベースのテキスト-オーディオ整合は強力で、評価モデルの中でMake-An-Audioが最高のMOSとCLAPスコアを達成。
- 本モデルはゼロショット設定でClothoへ一般化し、No Modality Left Behindの下でX-to-Audio生成(テキスト、オーディオ、画像、ビデオ)へ拡張。
- 疑似プロンプト強化(distill-then-reprogram)はデータ不足を大幅に緩和し、多様なオーディオ領域での概念構成を可能にする。
- スペクトrogramオートエンコーダに基づく拡散は、高レベルの意味的忠実性を保ちながら長尺音声モデリングを効率化する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。