Skip to main content
QUICK REVIEW

[論文レビュー] FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis

Rongjie Huang, Max W. Y. Lam|arXiv (Cornell University)|Apr 21, 2022
Speech Recognition and Synthesis被引用数 28
ひとこと要約

FastDiffは、時間認識の位置変動畳み込みとノイズスケジュール予測子を備えた高速条件拡散モデルを導入し、わずか4つの拡散ステップで高品質の音声を実現し、リアルタイムまたはそれを上回る速度のTTSを可能にします。さらに、エンドツーエンドの波形合成のためのFastDiff-TTSを提案します。

ABSTRACT

Denoising diffusion probabilistic models (DDPMs) have recently achieved leading performances in many generative tasks. However, the inherited iterative sampling process costs hindered their applications to speech synthesis. This paper proposes FastDiff, a fast conditional diffusion model for high-quality speech synthesis. FastDiff employs a stack of time-aware location-variable convolutions of diverse receptive field patterns to efficiently model long-term time dependencies with adaptive conditions. A noise schedule predictor is also adopted to reduce the sampling steps without sacrificing the generation quality. Based on FastDiff, we design an end-to-end text-to-speech synthesizer, FastDiff-TTS, which generates high-fidelity speech waveforms without any intermediate feature (e.g., Mel-spectrogram). Our evaluation of FastDiff demonstrates the state-of-the-art results with higher-quality (MOS 4.28) speech samples. Also, FastDiff enables a sampling speed of 58x faster than real-time on a V100 GPU, making diffusion models practically applicable to speech synthesis deployment for the first time. We further show that FastDiff generalized well to the mel-spectrogram inversion of unseen speakers, and FastDiff-TTS outperformed other competing methods in end-to-end text-to-speech synthesis. Audio samples are available at \url{https://FastDiff.github.io/}.

研究の動機と目的

  • 産業界のリアルタイム音声合成における高品質化のための拡散モデルの動機付け。
  • ノイズのあるサンプルで長期的な時間依存性を扱える高速で頑健な拡散ベースのボコーダを開発。
  • 品質を維持しつつ、学習済みノイズスケジュールによって逆拡散ステップを減らす。
  • テキストから直接波形を生成するエンドツーエンドのTTS(FastDiff-TTS)を実現。
  • 未知の話者への一般化と最先端ベースラインに対するMOSスコアの競合または優位性を示す。

提案手法

  • FastDiffを提案します。Diffusion時刻と音響特徴に条件付けられた長期的な時間依存性を捉える、時刻認識の位置変動畳み込みのスタックを用いた高速条件拡散モデル。
  • 短く効果的なサンプリングスケジュールを導出するノイズスケジュール予測子を導入し、少数ステップの逆拡散を可能にする。
  • 反復的な改良モデルθをスコアベースの目的を最小化するよう訓練し、別のノイズ予測子φを学習してよりタイトなノイズスケジュールを得る(説明のとおりELBOベースの訓練)。
  • 効率的な推論を少数ステップで実現するために、スケジュール整列を介して連続ノイズスケジュールを離散訓練ステップに整合させる。
  • FastDiff-TTSへの拡張として、中間のMelスペクトログラムを介さず、音素埋め込み文脈から直接波形をデコードするエンドツーエンドTTSシステムを提供。FastSpeech 2風のエンコーダと拶拶拡散デコーダを使用する。
  • エンドツーエンドTTSの訓練を安定化させるため、継続時間予測、拡散ノイズ再構成、ピッチ再構成を含む損失項を組み込む。

実験結果

リサーチクエスチョン

  • RQ1FastDiffは、数ステップの拡散でも高品質な音声を実現し、自然さと聴取可能性を保てるか。
  • RQ2時間認識の位置変動畳み込みは、拡散ベースのボコーダにおいて従来の畳み込みより頑健性とサンプリング速度を改善するか。
  • RQ3学習済みノイズスケジュールは、品質を犠牲にせず拡散サンプリングをどれだけ加速できるか。
  • RQ4エンドツーエンド拡散ベースTTS(FastDiff-TTS)は、パイプラインを簡素化しつつ、 Cascade TTSと同等以上の品質を実現できるか。
  • RQ5FastDiffは unseen speakersや条件(例: マルチスピーカTTS)に対してうまく一般化できるか。

主な発見

  • FastDiffはわずか4つのサンプリングステップで高品質の音声を実現し、最先端のボコーダに対してMOSスコアで競合。
  • FastDiffはV100 GPU上で専門的なカーネルを用いず、実時間の58倍速のサンプリング速度を達成。
  • 時間認識の位置変動畳み込みは、従来の畳み込みと比較してサンプリング速度と聴覚的品質を著しく向上させる。
  • ノイズスケジュール予測子は、品質の大幅な劣化を抑えつつ、グリッド探索ベースのスケジューリングに比べて推論を効率化する。
  • FastDiff-TTSはエンドツーエンドのTTSシステムで、競合するエンドツーエンドモデルを上回り、カスケードTTSパイプラインの品質に匹敵する。
  • FastDiffは未知の話者への強い一般化を示し、Out-of-domainデータのメルスペクトログラム反転でも堅牢な性能を維持する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。