[論文レビュー] ClariNet: Parallel Wave Generation in End-to-End Text-to-Speech
論文は、Gaussian inverse autoregressive flow (IAF) distillation from an autoregressive WaveNet to enable parallel waveform generation を可能にし、蒸留された並列ボコーダを備えた完全に畳み込み式のエンドツーエンドの text-to-wave TTS アーキテクチャを提示します。
In this work, we propose a new solution for parallel wave generation by WaveNet. In contrast to parallel WaveNet (van den Oord et al., 2018), we distill a Gaussian inverse autoregressive flow from the autoregressive WaveNet by minimizing a regularized KL divergence between their highly-peaked output distributions. Our method computes the KL divergence in closed-form, which simplifies the training algorithm and provides very efficient distillation. In addition, we introduce the first text-to-wave neural architecture for speech synthesis, which is fully convolutional and enables fast end-to-end training from scratch. It significantly outperforms the previous pipeline that connects a text-to-spectrogram model to a separately trained WaveNet (Ping et al., 2018). We also successfully distill a parallel waveform synthesizer conditioned on the hidden representation in this end-to-end model.
研究の動機と目的
- WaveNet ベースの TTS に対して、速く高忠実度な並列波形生成を動機づける。
- ゼロから訓練された完全に畳み込み式のエンドツーエンドの text-to-wave アーキテクチャを導入する。
- 生波形をモデリングするのに単一の Gaussian 出力で十分であることを示す。
- 自己回帰 WaveNet から Gaussian IAF を訓練するための正則化された KL 発散に基づく蒸留法を開発する。
- エンドツーエンドの hidden 表現に条件付けた並列ボコーダの蒸留が競争力のある結果を生むことを示す。
提案手法
- 教師モデルとして p(x_t|x_<t) = N(mu, sigma) を用いる Gaussian 自己回帰 WaveNet。
- q(x_t|z_<t) と p(x_t|x_<t) の間の閉形式の時刻ごとの KL 表現を持つ正則化された KL 発散 KL^reg を最小化して、学生として Gaussian IAF を蒸留する。
- 正則化された KL と STFT ベースのフレーム損失を含む結合損失を計算して訓練を安定化する。
- スペクトログラムではなく hidden 表現を条件にWaveNetを訓練する、エンコーダー・デコーダー・ブリッジ網・ボコーダーを含む、ゼロから訓練可能な完全に畳み込み式の text-to-wave アーキテクチャを開発する。
- 教師と学生の間で条件付けを共有する;任意で end-to-end 表現に条件付けられた並列ボコーダの蒸留を行う。
- 訓練中に数値安定性のため log-sigma をクリップし、混合物の代わりに単純な Gaussian 出力を使用する。
実験結果
リサーチクエスチョン
- RQ1単一の Gaussian 出力で生波形をモデリングして品質を損なうことなく WaveNet の波形を表現できるか?
- RQ2Gaussian IAF を自己回帰 WaveNet から閉形式で安定した KL 発散を用いて蒸留できるか?
- RQ3ゼロから訓練されたエンドツーエンドの text-to-wave アーキテクチャは、テキストからスペクトログラムとボコーダを個別に処理する従来のパイプライン手法よりも優れているか?
- RQ4蒸留された並列ボコーダはエンドツーエンド TTS において自己回帰ボコーダと比較してどうか?
- RQ5この蒸留プロセスの有効な安定化技術(例:KL 正則化、STFT 損失)は何か?
主な発見
- 単一の Gaussian 出力分布は WaveNet の波形モデリングに十分で、MOS は MoG/MoL/Softmax と同等である。
- 正則化された KL 発散を用いた Gaussian IAF 蒸留は Student-1/Student-2 の MOS を約 4.16~4.22 に達し、いくつかのベースラインを上回る。
- エンドツーエンドの text-to-wave モデルは別個に訓練されたパイプラインよりも優れており(MOS 約 4.15 対 3.81~3.73 の DV3+WaveNet ベースライン)。
- 蒸留された並列ボコーダを用いた推論は GTX 1080 Ti 上でリアルタイムより約 20 倍高速で実行される。
- 蒸留された並列ボコーダは自己回帰ボコーダと競合するが、エンドツーエンド表現のみに条件付けられる場合は MOS がやや低い。
- このアプローチは、ゼロから訓練可能な高速で完全な畳み込み式のエンドツーエンド TTS を実現し、閉形式の KL 蒸留の恩恵を受ける。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。