QUICK REVIEW

[論文レビュー] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech

Wei Ping, Kainan Peng|arXiv (Cornell University)|Jul 19, 2018

Speech Recognition and Synthesis参考文献 37被引用数 63

ひとこと要約

論文は、Gaussian inverse autoregressive flow (IAF) distillation from an autoregressive WaveNet to enable parallel waveform generation を可能にし、蒸留された並列ボコーダを備えた完全に畳み込み式のエンドツーエンドの text-to-wave TTS アーキテクチャを提示します。

ABSTRACT

In this work, we propose a new solution for parallel wave generation by WaveNet. In contrast to parallel WaveNet (van den Oord et al., 2018), we distill a Gaussian inverse autoregressive flow from the autoregressive WaveNet by minimizing a regularized KL divergence between their highly-peaked output distributions. Our method computes the KL divergence in closed-form, which simplifies the training algorithm and provides very efficient distillation. In addition, we introduce the first text-to-wave neural architecture for speech synthesis, which is fully convolutional and enables fast end-to-end training from scratch. It significantly outperforms the previous pipeline that connects a text-to-spectrogram model to a separately trained WaveNet (Ping et al., 2018). We also successfully distill a parallel waveform synthesizer conditioned on the hidden representation in this end-to-end model.

研究の動機と目的

WaveNet ベースの TTS に対して、速く高忠実度な並列波形生成を動機づける。
ゼロから訓練された完全に畳み込み式のエンドツーエンドの text-to-wave アーキテクチャを導入する。
生波形をモデリングするのに単一の Gaussian 出力で十分であることを示す。
自己回帰 WaveNet から Gaussian IAF を訓練するための正則化された KL 発散に基づく蒸留法を開発する。
エンドツーエンドの hidden 表現に条件付けた並列ボコーダの蒸留が競争力のある結果を生むことを示す。

提案手法

教師モデルとして p(x_t|x_<t) = N(mu, sigma) を用いる Gaussian 自己回帰 WaveNet。
q(x_t|z_<t) と p(x_t|x_<t) の間の閉形式の時刻ごとの KL 表現を持つ正則化された KL 発散 KL^reg を最小化して、学生として Gaussian IAF を蒸留する。
正則化された KL と STFT ベースのフレーム損失を含む結合損失を計算して訓練を安定化する。
スペクトログラムではなく hidden 表現を条件にWaveNetを訓練する、エンコーダー・デコーダー・ブリッジ網・ボコーダーを含む、ゼロから訓練可能な完全に畳み込み式の text-to-wave アーキテクチャを開発する。
教師と学生の間で条件付けを共有する；任意で end-to-end 表現に条件付けられた並列ボコーダの蒸留を行う。
訓練中に数値安定性のため log-sigma をクリップし、混合物の代わりに単純な Gaussian 出力を使用する。

実験結果

リサーチクエスチョン

RQ1単一の Gaussian 出力で生波形をモデリングして品質を損なうことなく WaveNet の波形を表現できるか？
RQ2Gaussian IAF を自己回帰 WaveNet から閉形式で安定した KL 発散を用いて蒸留できるか？
RQ3ゼロから訓練されたエンドツーエンドの text-to-wave アーキテクチャは、テキストからスペクトログラムとボコーダを個別に処理する従来のパイプライン手法よりも優れているか？
RQ4蒸留された並列ボコーダはエンドツーエンド TTS において自己回帰ボコーダと比較してどうか？
RQ5この蒸留プロセスの有効な安定化技術（例：KL 正則化、STFT 損失）は何か？

主な発見

単一の Gaussian 出力分布は WaveNet の波形モデリングに十分で、MOS は MoG/MoL/Softmax と同等である。
正則化された KL 発散を用いた Gaussian IAF 蒸留は Student-1/Student-2 の MOS を約 4.16～4.22 に達し、いくつかのベースラインを上回る。
エンドツーエンドの text-to-wave モデルは別個に訓練されたパイプラインよりも優れており（MOS 約 4.15 対 3.81～3.73 の DV3+WaveNet ベースライン）。
蒸留された並列ボコーダを用いた推論は GTX 1080 Ti 上でリアルタイムより約 20 倍高速で実行される。
蒸留された並列ボコーダは自己回帰ボコーダと競合するが、エンドツーエンド表現のみに条件付けられる場合は MOS がやや低い。
このアプローチは、ゼロから訓練可能な高速で完全な畳み込み式のエンドツーエンド TTS を実現し、閉形式の KL 蒸留の恩恵を受ける。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。