QUICK REVIEW

[論文レビュー] Flowtron: an Autoregressive Flow-based Generative Network for Text-to-Speech Synthesis

Rafael Valle, Kevin J. Shih|arXiv (Cornell University)|May 12, 2020

Speech Recognition and Synthesis参考文献 26被引用数 81

ひとこと要約

Flowtronは、可制御可能な音声変動とスタイル転送を備えた自己回帰型フローベースのTTSモデルを提示し、MOSは最先端モデルと同等で、表現力豊かな音声の潜在空間操作を可能にする。

ABSTRACT

In this paper we propose Flowtron: an autoregressive flow-based generative network for text-to-speech synthesis with control over speech variation and style transfer. Flowtron borrows insights from IAF and revamps Tacotron in order to provide high-quality and expressive mel-spectrogram synthesis. Flowtron is optimized by maximizing the likelihood of the training data, which makes training simple and stable. Flowtron learns an invertible mapping of data to a latent space that can be manipulated to control many aspects of speech synthesis (pitch, tone, speech rate, cadence, accent). Our mean opinion scores (MOS) show that Flowtron matches state-of-the-art TTS models in terms of speech quality. In addition, we provide results on control of speech variation, interpolation between samples and style transfer between speakers seen and unseen during training. Code and pre-trained models will be made publicly available at https://github.com/NVIDIA/flowtron

研究の動機と目的

TTS におけるテキスト以外の制御可能な情報（プロソディ、スタイル）の必要性を促す。
正規化フローを用いてメルスペクトログラムと潜在z空間との可逆写像を学習する生成モデルを開発する。
潜在空間サンプリングとテキストおよび話者情報による条件付けを通じて、話声の特徴（ピッチ、トーン、韻律、アクセント）の操作を可能にする。
追加の Prenet/Postnet や複合損失を用いず、尤度ベースの最適化によって安定した学習を達成する。
見知りのある話者・未知の話者を問わず、変動制御、補間、スタイル転送を用いた表現豊かな音声合成を実証する。

提案手法

テキストと話者埋め込みで条件付けられた p(x) = product p(x_t|x_1:t-1) によってメルスペクトログラムフレームが生成される自己回帰フローモデルを採用する。
ガウス分布またはガウス混合分布からの潜在zをメルスペクトログラムへ写像する可逆アファイン結合層を用い、尤度訓練のための対数決定式項を含める。
Tacotronの構成要素（Prenet/Postnet）を置換し、インスタンス正規化と内容ベースのアテンションを備えたTacotron様のテキストエンコーダを採用する。
z-spaceをガウスまたはガウス混合分布でパラメータ化し、必要に応じ学習可能にして、スタイル制御のための事前証拠に基づくサンプリングと事後条件付けを可能にする。
データ尤度を最大化して訓練する；推論ではガウスまたはGMからzをサンプルし、フローを反転してメルスペクトログラムを生成する。必要に応じ prior サンプルに基づく事後を条件付けて使用する。

実験結果

リサーチクエスチョン

RQ1正規化フローベースのTTSは、可制御可能な変動性を提供しつつ最先端の音声品質に匹敵できるか。
RQ2潜在空間操作は、TTS出力のプロソディ、韻律、スタイルの制御をどのように可能にするか。
RQ3Flowtronは、表現データラベルなしで、サンプル間の補間と見知りのある/未知の話者間のスタイル転送を実行できるか。

主な発見

Flowtronは最先端のTTSモデルと同等のMOSを達成し、メルスペクトログラム合成におけるTacotron 2との品質差を縮める。
分散を変化させたガウスからzをサンプルすると、音声変動と長さを制御でき、品質を犠牲にすることなくより表現力のある出力を生成する。
Flowtronは潜在空間での補間をサポートし、 seen speakers と unseen data の間を含む話者特性と音声スタイルをブレンドする。
prior evidence に基づく事後サンプリングは、見知り・未知の話者のスタイル転送と表現の調整を可能にする。
Gaussian Mixture Flowtronの変種は、話者の性別とスタイル属性に関連する分離された成分を明らかにし、次元ごとの制御を可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。