[論文レビュー] FastSpeech 2: Fast and High-Quality End-to-End Text to Speech
tldr: FastSpeech 2 は直接 ground-truth メルスペクトログラムで学習し、ピッチとエネルギーの分散情報を追加してワン-to-many マッピングを緩和する。FastSpeech 2s はさらに並列で波形を直接生成することで、エンドツーエンドの TTS をより高速化する。
Non-autoregressive text to speech (TTS) models such as FastSpeech can synthesize speech significantly faster than previous autoregressive models with comparable quality. The training of FastSpeech model relies on an autoregressive teacher model for duration prediction (to provide more information as input) and knowledge distillation (to simplify the data distribution in output), which can ease the one-to-many mapping problem (i.e., multiple speech variations correspond to the same text) in TTS. However, FastSpeech has several disadvantages: 1) the teacher-student distillation pipeline is complicated and time-consuming, 2) the duration extracted from the teacher model is not accurate enough, and the target mel-spectrograms distilled from teacher model suffer from information loss due to data simplification, both of which limit the voice quality. In this paper, we propose FastSpeech 2, which addresses the issues in FastSpeech and better solves the one-to-many mapping problem in TTS by 1) directly training the model with ground-truth target instead of the simplified output from teacher, and 2) introducing more variation information of speech (e.g., pitch, energy and more accurate duration) as conditional inputs. Specifically, we extract duration, pitch and energy from speech waveform and directly take them as conditional inputs in training and use predicted values in inference. We further design FastSpeech 2s, which is the first attempt to directly generate speech waveform from text in parallel, enjoying the benefit of fully end-to-end inference. Experimental results show that 1) FastSpeech 2 achieves a 3x training speed-up over FastSpeech, and FastSpeech 2s enjoys even faster inference speed; 2) FastSpeech 2 and 2s outperform FastSpeech in voice quality, and FastSpeech 2 can even surpass autoregressive models. Audio samples are available at https://speechresearch.github.io/fastspeech2/.
研究の動機と目的
- 非自己回帰 TTS におけるワン-to-many マッピングの問題を、入力に分散情報(持続時間、ピッチ、エネルギー)を付加して解決する。
- 教師蒸留ターゲットの代わりに direct に ground-truth メルスペクトログラムを用いて学習パイプラインを簡素化する。
- 持続時間の精度を向上させ、ピッチとエネルギーの予測子を導入して音声品質を高める。
- FastSpeech 2s を開発して、テキストから波形へ完全にエンドツーエンドの合成を実現し、推論を高速化する。
提案手法
- エンコーダは音素埋め込みを hidden 表現へ変換する。
- 分散アダプタは隠れ系列に持続時間、ピッチ、エネルギー情報を追加する。
- 持続時間予測器は強制アラインメント(MFA)ターゲットを用いて正確な音素持続時間を得る。
- ピッチ予測器は周波数領域でピッチを予測する連続ウェーブレット変換(CWT)を用い、推論には iCWT を使用する。
- エネルギー予測器はフレームレベルのエネルギーを予測し、その埋め込みを隠れ系列に加える。
- メルスペクトログラムデコーダは並列でメルスペクトログラムを生成する;学習ターゲットは ground-truth メルスペクトログラム(教師-生徒蒸留なし)。
- FastSpeech 2s は FastSpeech 2 を拡張し、テキストから直接波形を生成する WaveNet に似たデコーダと対抗的訓練を用いた識別器を持ち、並列ボコーダーベースの識別器を用いてエンドツーエンド波形合成を可能にする。
実験結果
リサーチクエスチョン
- RQ1教師-生徒蒸留を取り除くと、ground-truth メルスペクトログラムで直接学習した場合に音声品質が向上するか?
- RQ2明示的な持続時間、ピッチ(CWT 経由)、エネルギーを分散情報として組み込むと、生成音声の自然さが向上するか?
- RQ3周波数領域でピッチを予測することは、韻律と MOS にどのような影響を与えるか?
- RQ4FastSpeech 2s で完全なエンドツーエンドの非自己回帰 TTS モデルが、品質と速度を維持しつつ波形を直接生成できるか?
主な発見
| Method | MOS (mean ± CI) |
|---|---|
| GT | 4.30 ± 0.07 |
| GT (Mel + PWG) | 3.92 ± 0.08 |
| Tacotron 2 (Mel + PWG) | 3.70 ± 0.08 |
| Transformer TTS (Mel + PWG) | 3.72 ± 0.07 |
| FastSpeech (Mel + PWG) | 3.68 ± 0.09 |
| FastSpeech 2 (Mel + PWG) | 3.83 ± 0.08 |
| FastSpeech 2s | 3.71 ± 0.09 |
- FastSpeech 2 は FastSpeech に対する学習速度を約 3 倍向上させる。
- FastSpeech 2 および 2s は音声品質で FastSpeech を上回り、MOS では FastSpeech が autoregressive モデルを凌ぐことさえある。
- FastSpeech 2 および 2s はピッチとエネルギーをより正確に提供し、FastSpeech と比較して韻律と CMOS スコアを改善する。
- 周波数領域でのピッチ予測(CWT 使用)は、時間領域予測よりピッチモデリングを改善し CMOS スコアを改善する。
- FastSpeech 2s は cascaded システムよりも速い推論で完全なエンドツーエンドの波形生成を可能にする。
- FastSpeech 2 は推論時の大幅なスピードアップを提供(RTF 約 1.95e-2)、FastSpeech 2s はエンドポイントの待ち時間をさらに改善する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。