[論文レビュー] A Survey on Audio Diffusion Models: Text To Speech Synthesis and Enhancement in Generative AI
diffusion-modelベースの音声生成の総合調査。特にテキスト音声合成(TTS)と音声強調に焦点を当て、分類、モデルのバリエーション、効率向上、エンドツーエンドの動向を扱う。
Generative AI has demonstrated impressive performance in various fields, among which speech synthesis is an interesting direction. With the diffusion model as the most popular generative model, numerous works have attempted two active tasks: text to speech and speech enhancement. This work conducts a survey on audio diffusion model, which is complementary to existing surveys that either lack the recent progress of diffusion-based speech synthesis or highlight an overall picture of applying diffusion model in multiple fields. Specifically, this work first briefly introduces the background of audio and diffusion model. As for the text-to-speech task, we divide the methods into three categories based on the stage where diffusion model is adopted: acoustic model, vocoder and end-to-end framework. Moreover, we categorize various speech enhancement tasks by either certain signals are removed or added into the input speech. Comparisons of experimental results and discussions are also covered in this survey.
研究の動機と目的
- diffusionモデルを音声に適用する landscape を要約する。特にTTSと音声強調。
- diffusion段階の使用法で方法を分類する(音響モデル、ボコーダー、エンドツーエンド)。
- 効率向上と適応/マルチスピーカーのモデリング手法を強調する。
- diffusionベースのボコーダーとエンドツーエンドの拡張音声システムを議論する。
- 最新のデータセット、評価指標、主要な発見を統合して提示する。
提案手法
- TTSのdiffusion手法を音響モデル、ボコーダー、エンドツーエンドのフレームワークに分類する。
- DDPM/SD Eベースの音響モデルを含むdiffusionベースの音響モデルとエンドツーエンドのバリアントをレビューする。
- 知識蒸留、GAN誘導デノイズ、適応事前分布、推論高速化などの効率向上を要約する。
- 潜在変数サンプリング、参照音声条件づけ、分類子なしガイダンスなどによるマルチスピーカー設定の説明を行う。
- ノイズスケジュールに基づく高速化と推論時の技法(BDDM、InferGrad など)を含むボコーダーのdiffusionモデルを調査する。
- 時間周波数領域、時間領域、無教師あり/復元フレームワークなど、diffusionベースの音声強調カテゴリを要約する。
実験結果
リサーチクエスチョン
- RQ1テキスト音声合成と音声強調に用いられる支配的なdiffusionモデルのアーキテクチャは何か。
- RQ2diffusionモデルは音響、ボコーダー、またはエンドツーエンドのTTSパイプラインにどう統合されているか。
- RQ3リアルタイムまたは実用的展開を可能にする効率と品質の向上は何か。
- RQ4diffusionベースのアプローチはマルチスピーカーとスタイル/感情制御をどう扱うか。
- RQ5diffusionベースの音声システムを評価する主なデータセットと指標は何か。
主な発見
| 手法 | 段階 | データセット | MOS | RTF | SMOS | CER |
|---|---|---|---|---|---|---|
| Diff-TTS | 音響モデル | LJSpeech | 4.337 | 0.035 | - | - |
| Grad-TTS | 音響モデル | LJSpeech | 4.44 | 0.012 | - | - |
| ProDiff | 音響モデル | LJSpeech | 4.08 | 0.04 | - | - |
| NoreSpeech | 音響モデル | LibriTTS | 4.11 | - | 4.14 | - |
| Grad-TTS with ILVR | 音響モデル | LibriTTS | 3.96 | - | - | - |
| Grad-StyleSpeech | 音響モデル | LibriTTS | 4.18 | - | 3.83 | 2.79 |
| Guided-TTS 2 | 音響モデル | LibriTTS | 4.25 | - | 3.51 | 0.8 |
| Grad-StyleSpeech | 音響モデル | VCTK | 4.13 | - | 3.95 | 2.49 |
| Guided-TTS 2 | 音響モデル | VCTK | 4.23 | - | 3.39 | 0.81 |
| WaveGrad | ボコーダー | LJSpeech | - | - | - | - |
| DiffWave | ボコーダー | LJSpeech | - | - | - | - |
- diffusionモデルは3段階から2段階のTTSフレームワークへ移行しており、音響モデルがMelスペクトログラムを生成し、ボコーダーが波形へ変換する構成が一般的である。エンドツーエンドのdiffusion TTSも探究されている。
- 音響モデルのdiffusionでの性能指標は、いくつかのデータセット(LJSpeech、LibriTTS、VCTK など)でMOSが4.0–4.4の範囲。
- ボコーダーのdiffusionモデルは、スケジューリングと推論強化(DDGM、DDIM、BDDM、InferGrad など)による大幅なスピードアップとともに、MOSが約4.3–4.5の競合的水準を達成。
- latent変数サンプリング、参照音声条件づけ、分類子なしガイダンスを通じた適応的マルチスピーカーおよびゼロショット機能を実現。
- 離散潜在空間(VQ-VAEとdiffusionデコーダ)アプローチは、非自己回帰生成とデータ効率の向上を可能に。
- 感情とスタイル制御は、ソフトラベルガイダンスと学習済み分類器を用いて実現可能。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。