QUICK REVIEW

[論文レビュー] Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search

Jaehyeon Kim, Sungwon Kim|arXiv (Cornell University)|May 22, 2020

Speech Recognition and Synthesis参考文献 33被引用数 204

ひとこと要約

Glow-TTSは、内部で単調なテキスト音声整列性を学習するフロー型の並列TTSモデルで、外部アライナーなしに高速で堅牢かつ制御可能な音声合成を実現します。高速な並列合成と自己回帰型Tacotron 2と同等の品質を達成し、マルチスピーカー設定と韻律制御（プロソディ）のサポートを追加します。

ABSTRACT

Recently, text-to-speech (TTS) models such as FastSpeech and ParaNet have been proposed to generate mel-spectrograms from text in parallel. Despite the advantage, the parallel TTS models cannot be trained without guidance from autoregressive TTS models as their external aligners. In this work, we propose Glow-TTS, a flow-based generative model for parallel TTS that does not require any external aligner. By combining the properties of flows and dynamic programming, the proposed model searches for the most probable monotonic alignment between text and the latent representation of speech on its own. We demonstrate that enforcing hard monotonic alignments enables robust TTS, which generalizes to long utterances, and employing generative flows enables fast, diverse, and controllable speech synthesis. Glow-TTS obtains an order-of-magnitude speed-up over the autoregressive model, Tacotron 2, at synthesis with comparable speech quality. We further show that our model can be easily extended to a multi-speaker setting.

研究の動機と目的

訓練に外部アライナーを必要としない並列TTSモデルを開発する。
単調な整列を持つフロー型デコーダを用いて、高速で堅牢なメルスペクトログラム合成を実現する。
訓練中に最も確からしい単調整列を見つけるために動的計画法を組み込む。
韻律（ピッチ）と発話速度の制御性を実証し、マルチスピーカーTTSへ拡張する。

提案手法

事前分布 z|c を x に変換するフロー型デコーダを用いてメルスペクトログラムの条件付き分布をモデル化する。
潜在変数 z のインデックスをテキストにエンコードされた統計量 mu, sigma に写像するアライメント関数 A を用い、単調で全射なアライメントを強制する。
MAS による最も確からしい単調アライメント A* の探索とモデルパラメータの更新を交互に繰り返すことで、最尤推定で訓練する（ビタリビ風の訓練）。
テキストエンコーダで事前統計を予測し、アライメント由来の継時を一致させるように継時予測器を訓練する。
テキストから事前統計を予測し、事前分布から z をサンプリングして、並列にフロー型デコーダを通して変換することで推論する。

実験結果

リサーチクエスチョン

RQ1外部アライナーなしで、フロー型TTSモデルが単調なテキスト音声整列を学習できるか？
RQ2厳密な単調整列を課すことは頑健性を高め、並列合成を可能にするか？
RQ3モデルはマルチスピーカーTTSをサポートし、韻律と話速の制御性を提供できるか？

主な発見

Glow-TTSは彼らの設定でTacotron 2より15.7倍高速にメルスペクトログラム合成を達成する。
MOS結果は、Glow-TTSのバリアントがTacotron 2と同等の知覚品質を達成し、最良の単一話者でのMOSは設定に応じて約4.0–4.5（例：Mel+WaveGlowベースラインで4.01–4.19、GTはより高品質な設定で4.54を達成）である。
長い発話に対して頑健で、長い入力では Tacotron 2 より文字誤り率が低い。
潜在ノイズ ε による多様な音声と、温度 T による可変ピッチ、そして継時スケーリングによる発話速度の調整を可能にする。
Glow-TTS は単一スピーカーのベースラインと同等の性能でマルチスピーカーTTSへ拡張でき、潜在音声の分離によるボイスコンバージョンを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。