Skip to main content
QUICK REVIEW

[論文レビュー] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

Jonathan Shen, Ruoming Pang|arXiv (Cornell University)|Dec 16, 2017
Speech Recognition and Synthesis参考文献 28被引用数 183
ひとこと要約

Tacotron 2 は Tacotron 風のメルスペクトログラム予測子と修正 WaveNet ボコーダを組み合わせ、テキストから直接高品質な音声を合成し、MOS が自然音声に近い。システムはメルスペクトログラムを中間表現として使用し、アブレーションと効率向上を実証する。

ABSTRACT

This paper describes Tacotron 2, a neural network architecture for speech synthesis directly from text. The system is composed of a recurrent sequence-to-sequence feature prediction network that maps character embeddings to mel-scale spectrograms, followed by a modified WaveNet model acting as a vocoder to synthesize timedomain waveforms from those spectrograms. Our model achieves a mean opinion score (MOS) of $4.53$ comparable to a MOS of $4.58$ for professionally recorded speech. To validate our design choices, we present ablation studies of key components of our system and evaluate the impact of using mel spectrograms as the input to WaveNet instead of linguistic, duration, and $F_0$ features. We further demonstrate that using a compact acoustic intermediate representation enables significant simplification of the WaveNet architecture.

研究の動機と目的

  • 手作り機能を使わず、テキストから音声へマッピングする完全ニューラル TTS パイプラインを実証する。
  • メルスペクトログラムを条件付けした WaveNet が高品質な音声を生み出すことを示す。
  • メルスペクトログラム条件付けと語彙/0の特徴量やレガシーボコーダーとの比較がモデルの複雑さと音声品質に与える影響を評価する。
  • コンポーネントの寄与とモデル効iciency を理解するためのアブレーションを評価する。

提案手法

  • 文字埋め込みをメルスペクトログラムフレームへ変換する seq2seq 形式の特徴量予測器を、注意機構と共に用いる。
  • 予測されたメルスペクトログラムを条件として時系列音声を生成する修正 WaveNet ボコーダを用いる。
  • 教師強制を用いてスペクトログラム予測器を訓練し、別個に予測特徴量上で WaveNet を訓練する。
  • 波形生成を動的に停止するストップトークン機構を導入。
  • ポストネットがスペクトログラム再構成を改善する残差を加える。

実験結果

リサーチクエスチョン

  • RQ1メルスペクトログラム予測で WaveNet を条件付けると、言語的特徴量や Griffin-Lim ベースのボコーダーに比べて音声の品質が高くなるか。
  • RQ2中間表現としてメルスペクトログラムを使うことが、モデルの複雑さと音声品質にどう影響するか。
  • RQ3アブレーション(線形 vs メルスペクトログラム、ポストネットの必須性、WaveNet の深さ)は MOS と知覚的自然さにどう影響するか。
  • RQ4エンドツーエンドのニューラル TTS は、ドメイン内外のテキストに対して ground truth に近い MOS を達成できるか。
  • RQ5Tacotron 2 における発音と韻律の誤りモードはどのようなもので、ベースラインと比較してどのようか。

主な発見

SystemMOS
パラメトリック3.492\pm 0.096
Tacotron(Griffin-Lim)4.001\pm 0.087
結合型4.166\pm 0.091
WaveNet(言語特徴)4.341\pm 0.051
グラウンドトゥルース4.582\pm 0.053
Tacotron 2(本論文)4.526\pm 0.066
  • Tacotron 2 は Mel conditioning で MOS 4.526 を達成し、ground-truth MOS 4.582 に近づく。
  • Ground-truth audio は 4.582(95% CI); Tacotron 2 は 4.526(CI 0.066)で近接。
  • Mel スペクトログラムを条件付けた WaveNet は、言語特徴に基づく WaveNet および Griffin-Lim ベースの基準より顕著に優れている。
  • メルスペクトログラムを用いるとコンパクトな条件付け入力になり、WaveNet を浅い層数(例: 12 層)にしても品質を損なわない。
  • ポストネットは MOS の向上に寄与する(ポストネットあり 4.526、なし 4.429)。
  • アブレーションの結果、訓練時の特徴量と推論時の特徴量の整合性が重要であることが分かり、最良は WaveNet が真の特徴量で訓練され、予測特徴量でデコードされる場合である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。