[論文レビュー] NaturalSpeech: End-to-End Text to Speech Synthesis with Human-Level Quality
NaturalSpeech は、Phoneme pre-training、微分可能な durator、双方向の prior/posterior フロー、および memory-based VAE を用いた VAE ベースのテキスト・ツー・ウェーブフォーム生成フレームワークにより、LJSpeech で人間レベルの品質を達成するエンドツーエンド TTS システムであり、CMOS が人間の録音と区別不能であることを示す。
Text to speech (TTS) has made rapid progress in both academia and industry in recent years. Some questions naturally arise that whether a TTS system can achieve human-level quality, how to define/judge that quality and how to achieve it. In this paper, we answer these questions by first defining the human-level quality based on the statistical significance of subjective measure and introducing appropriate guidelines to judge it, and then developing a TTS system called NaturalSpeech that achieves human-level quality on a benchmark dataset. Specifically, we leverage a variational autoencoder (VAE) for end-to-end text to waveform generation, with several key modules to enhance the capacity of the prior from text and reduce the complexity of the posterior from speech, including phoneme pre-training, differentiable duration modeling, bidirectional prior/posterior modeling, and a memory mechanism in VAE. Experiment evaluations on popular LJSpeech dataset show that our proposed NaturalSpeech achieves -0.01 CMOS (comparative mean opinion score) to human recordings at the sentence level, with Wilcoxon signed rank test at p-level p >> 0.05, which demonstrates no statistically significant difference from human recordings for the first time on this dataset.
研究の動機と目的
- 統計的有意性を用いて TTS の人間レベル品質を定義する。
- テストセットで人間レベル品質を判断するためのガイドラインを特定する。
- benchmark データセットで人間の録音との差を埋めるエンドツーエンド TTS システムを開発する。
- 提案手法が LJSpeech で人間の音声と CMOS 区別不能であることを示す。
提案手法
- speech x をフレームレベル潜在 z に写像し、z から x を再構成する(p(x|z))変分オートエンコーダを用いる。
- 大規模事前学習を利用したフォンミーエンコーダでテキスト y からフレームレベル priors p(z|y) を予測する。
- 音素レベルの priors をフレームレベルの posteriors に合わせる微分可能な durator を導入する。
- priors を強化し posteriors を簡素化するために flow モデルを介した双方向の prior/posterior モジュールを組み込む。
- メモリーベースの VAE を適用してウェーブフォーム再構成のためにメモリバンクにアクセスすることで posterior の複雑さを低減する。
- L_bwd、L_fwd、L_rec、L_e2e などの複数の損失項と、適切な場合には soft-DTW を併用してエンドツーエンドで訓練する。
実験結果
リサーチクエスチョン
- RQ1TTS における人間レベル品質とは何か、統計的にどのように判断できるか。
- RQ2エンドツーエンド TTS システムは標準データセット上で人間の録音に近づくことができるか。
- RQ3どのアーキテクチャ要素が最も効果的に人間の音声との差を縮めるか(音素事前学習、微分可能な durator、双方向の prior/posterior、memory-based VAE)?
主な発見
| System | MOS | CMOS |
|---|---|---|
| 人間の録音 | 4.58±0.13 | 0 |
| NaturalSpeech | 4.56±0.13 | -0.01 |
| FastSpeech 2 + HiFiGAN | 4.32±0.15 | -0.33 |
| Glow-TTS + HiFiGAN | 4.34±0.13 | -0.26 |
| Grad-TTS + HiFiGAN | 4.37±0.13 | -0.24 |
| VITS | 4.43±0.13 | -0.20 |
- NaturalSpeech は LJSpeech で人間の録音に対して CMOS が -0.01、p >> 0.05 であり、人間の音声と統計的に有意差がないことを示す。
- MOS では NaturalSpeech が人間の録音と同等(4.56±0.13 対 4.58±0.13、p = 0.7145)。
- FastSpeech 2 + HiFiGAN、Glow-TTS + HiFiGAN、Grad-TTS + HiFiGAN、VITS と比較して、NaturalSpeech は MOS が高く(4.56 vs 4.32–4.49)、CMOS はゼロに近い(0 vs -0.20 to -0.33)。
- アブレーション研究により、各主要要素(音素事前学習、微分可能な durator、双方向の priors/posterior、VAE のメモリ利用) が CMOS に寄与し、除去時の低下は -0.06 から -0.12 の範囲。
- NaturalSpeech は推論速度が速いまたは既存の TTS 系より同等であり、ベースラインよりも優れた音声品質を提供する(RTF ~ 0.013)。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。