QUICK REVIEW

[論文レビュー] Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech

Popov Va, Ivan Vovk|arXiv (Cornell University)|May 13, 2021

Music and Audio Processing参考文献 31被引用数 43

ひとこと要約

Grad-TTS は拡散ベースの音響特徴生成器を TTS に導入し、スコアベースのデコーダと Monotonic Alignment Search によってメルスペクトログラムを生成する；速度と品質のトレードオフを制御可能で、MOS スコアも競争力がある。

ABSTRACT

Recently, denoising diffusion probabilistic models and generative score matching have shown high potential in modelling complex data distributions while stochastic calculus has provided a unified point of view on these techniques allowing for flexible inference schemes. In this paper we introduce Grad-TTS, a novel text-to-speech model with score-based decoder producing mel-spectrograms by gradually transforming noise predicted by encoder and aligned with text input by means of Monotonic Alignment Search. The framework of stochastic differential equations helps us to generalize conventional diffusion probabilistic models to the case of reconstructing data from noise with different parameters and allows to make this reconstruction flexible by explicitly controlling trade-off between sound quality and inference speed. Subjective human evaluation shows that Grad-TTS is competitive with state-of-the-art text-to-speech approaches in terms of Mean Opinion Score. We will make the code publicly available shortly.

研究の動機と目的

TTSにおける音響特徴生成のための拡散確率モデルの動機付け。
MAS-aligned特徴を介してエンコード済みテキストに条件付けられたガウスノイズをメルスペクトログラムへ変換する Grad-TTS の開発。
拡張設定でメルスペクトログラムの出力を生波形の生成に置換することで、エンドツーエンドTTSの可能性を実現する。
拡散ステップ数を変えることによって推論速度と品質のトレードオフを提供する仕組み。

提案手法

データを一般化平均/対角共分散 (mu, Sigma) を用いてガウスノイズへ写像する前向き拡散を定式化する。
ニューラルネットワーク s_theta(X_t, mu, t) を用いたスコアベース勾配推定を伴うSDE/ODEによる逆拡散を導出する。
ノイズ化データ分布の勾配を推定するスコアマッチング風の損失で訓練し、エンコードベースのアライメント mu を組み込む。
Monotonic Alignment Search (MAS) を用いてテキストと整列済みメルスペクトログラムの対応を取得し、継続時間予測器を訓練する。
エンコーダ出力を条件として制約される U-Net デコーダを採用し、マルチ解像度のメルスペクトログラム表現上で動作させ、可変推論ステップを可能にする。

実験結果

リサーチクエスチョン

RQ1拡散確率モデルは TTS の有効な音響特徴生成器として機能し得るか？
RQ2MASに整列されたエンコーディングとスコアベースデコーダの組み合わせは、推論速度を調整できる競争力のある音声品質を実現するか？
RQ3Grad-TTS は MOS および客観指標で自己回帰・非自己回帰のベースラインとどう比較されるか？
RQ4拡散デコーディングから直接波形を生成して Grad-TTS をエンドツーエンド TTS に拡張することは実現可能か？
RQ5拡散ステップ数を変えることが音声品質とリアルタイム性能に与える影響は？

主な発見

Model	Enc params	Dec params	RTF	Log-likelihood	MOS
Grad-TTS-1000	7.2m	7.6m	3.663	0.174±0.001	4.44±0.05
Glow-TTS	7.2m	21.4m	0.008	0.082	4.11±0.07
FastSpeech	24.5m	0.004	-	-	3.68±0.09
Tacotron2	28.2m	0.075	-	-	4.32±0.07
Ground Truth	-	-	-	-	4.53±0.06

拡散ベースのデコーディングを用いる Grad-TTS は、特定の設定下で Tacotron2 に競合する MOS を達成し、グラウンドトゥルースに近い。
逆拡散反復回数を増やすと MOS は向上するが、設定に応じて約10–100回を超えると得られる改善は飽和する。
Grad-TTS-1000 は、十分な反復回数を用いた場合、リアルタイム対応の GPU 合成でグラウンドトゥルースに近い MOS (4.44±0.05 対 4.53±0.06) を達成する。
デコーダーのステップが100未満のとき GPU 上でリアルタイム合成を示し、パラメータはおよそ1500万、いくつかのベースラインより速度と品質のトレードオフで優れる。
エンドツーエンド拡散ベースの TTS は実現可能だが、現状は Mel-spectrogram ベースの Grad-TTS より品質で劣る。WaveGrad のようなエンドツーエンド拗拡散設定の将来性を示唆。
Glow-TTS および FastSpeech と比較して、Grad-TTS は競争力のある MOS と、アライメントおよび発音の信頼性の向上を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。