QUICK REVIEW

[論文レビュー] Tacotron: Towards End-to-End Speech Synthesis

Yuxuan Wang, RJ Skerry-Ryan|arXiv (Cornell University)|Mar 29, 2017

Speech Recognition and Synthesis参考文献 20被引用数 151

ひとこと要約

Tacotron は、<text, audio> のペアからスペクトログラムを文字から生成するエンドツーエンドの seq2seq TTS モデルを提案し、自然さの点で生産的なパラメトリック系を上回りつつ、フレーム単位の推論をより高速に実現します。

ABSTRACT

A text-to-speech synthesis system typically consists of multiple stages, such as a text analysis frontend, an acoustic model and an audio synthesis module. Building these components often requires extensive domain expertise and may contain brittle design choices. In this paper, we present Tacotron, an end-to-end generative text-to-speech model that synthesizes speech directly from characters. Given pairs, the model can be trained completely from scratch with random initialization. We present several key techniques to make the sequence-to-sequence framework perform well for this challenging task. Tacotron achieves a 3.82 subjective 5-scale mean opinion score on US English, outperforming a production parametric system in terms of naturalness. In addition, since Tacotron generates speech at the frame level, it's substantially faster than sample-level autoregressive methods.

研究の動機と目的

手動で設計されたテキストや特徴処理を排除し、<text, audio> ペアで訓練されるエンドツーエンドモデルを用いる。
エンドツーエンドの訓練を通じて、話者や言語などの属性条件付けを可能にする。
長く多様な発話に対する整合性と韻律の処理を改善する。
サンプル単位の出力ではなくフレームベースのスペクトログラムを生成して合成速度を向上させる。

提案手法

文字列系列をメルスケールのスペクトログラムフレームへ対応付けるために注意機構を備えたシーケンスツーシーケンス構成を用いる。
CBHG（Convolution Bank + Highway Network + Bidirectional GRU）モジュールを導入し、文字列系列を頑健にエンコードする。
デコーダのステップごとに複数のフレームを予測する（縮約率 r）ことで収束と訓練を高速化する。
Seq2Seq のターゲットをより高品質なスペクトログラムへ変換する後処理 CBHG を適用し、 Griffin-Lim による波形合成を行う。
Seq2Seq のメルスペクトログラムと後処理のリニアスペクトログラムターゲットに対して L1 損失を訓練に用いる。
スペクトログラムを予測した後 Griffin-Lim で音声を合成する際、グリッフン・リムの前に振幅を 1.2 倍のパワーにスケールしてアーチファクトを低減する。

実験結果

リサーチクエスチョン

RQ1 raw テキストで訓練されたエンドツーエンドモデルは、手作業の言語特徴や HMM アライナーを用いずに自然な発話を達成できるか？
RQ2CBHG ベースのエンコーダは、文字レベルの入力に対する整合性と一般化を改善するか？
RQ3デコーダのステップごとに複数フレームを予測する（縮約率）ことは、収束を速め、整合性の安定性を向上させるか？
RQ4波形再構成の Griffin-Lim を使用する場合の後処理ネットの品質への影響はどの程度か？

主な発見

Tacotron は US English で 3.82 の Mean Opinion Score (MOS) を達成し、自然さの点で生産的なパラメトリック系を上回る。
モデルはフレームベースで動作し、サンプルレベルの自己回帰法よりはるかに高速。
CBHG エンコーダは、従来の GRU エンコーダと比較して誤読や過学習を減らす。
後処理ネットは調和的なディテールと高周波のフォルマントを改善し、合成アーチファクトを減らす。
グリッフン・リムを用いたスペクトル振幅を 1.2 に冪乗して強化することで知覚品質を向上させる。
内部データ（約 24.6 時間）で単一の女性話者を用いた場合、Tacotron は強い自然さと頑健性を示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。