[論文レビュー] FastSpeech: Fast, Robust and Controllable Text to Speech
FastSpeech は自己回帰型ではない Transformer ベースの TTS を導入し、長さレギュレータと持続時間予測器を用いてメルスペクトログラムを並列生成します。これにより大幅なスピードアップと制御可能な音声速度での頑健性向上を実現します。
Neural network based end-to-end text to speech (TTS) has significantly improved the quality of synthesized speech. Prominent methods (e.g., Tacotron 2) usually first generate mel-spectrogram from text, and then synthesize speech from the mel-spectrogram using vocoder such as WaveNet. Compared with traditional concatenative and statistical parametric approaches, neural network based end-to-end models suffer from slow inference speed, and the synthesized speech is usually not robust (i.e., some words are skipped or repeated) and lack of controllability (voice speed or prosody control). In this work, we propose a novel feed-forward network based on Transformer to generate mel-spectrogram in parallel for TTS. Specifically, we extract attention alignments from an encoder-decoder based teacher model for phoneme duration prediction, which is used by a length regulator to expand the source phoneme sequence to match the length of the target mel-spectrogram sequence for parallel mel-spectrogram generation. Experiments on the LJSpeech dataset show that our parallel model matches autoregressive models in terms of speech quality, nearly eliminates the problem of word skipping and repeating in particularly hard cases, and can adjust voice speed smoothly. Most importantly, compared with autoregressive Transformer TTS, our model speeds up mel-spectrogram generation by 270x and the end-to-end speech synthesis by 38x. Therefore, we call our model FastSpeech.
研究の動機と目的
- 推論の遅さ、頑健性の問題(語のスキップ/繰り返し)、および自己回帰 TTS モデルにおける制御性の欠如に対処する。
- FF Transformer(FFT)に基づく並列メルスペクトログラム生成フレームワークを提案する。
- 持続時間予測器と長さレギュレータを用いてメルスペクトログラムの長さに合わせて音素持続時間を整合させる。
- 音素の持続時間を調整して速度と韻律を変えられるよう、制御可能な音声合成を実現する。
提案手法
- 自己注意機構と1D畳み込みブロックを持つフィードフォワード Transformer(FFT)を用いて音素からメルスペクトログラムへ変換する。
- 予測された音素持続時間に基づき音素表現をアップサンプリングしてメルスペクトログラム長に揃える長さレギュレータを導入する。
- 対角アテンション整列を用いて Ground-truth 持続時間を導出するため、自己回帰の教師モデルから学習した持続時間予測器で音素持続時間を予測する。
- 自己回帰 Transformer TTS モデル(教師)から並列(学生)モデルへ、シーケンスレベルの知識蒸留を用いて FastSpeech を訓練する。
- 生成されたメルスペクトログラムからエンドツーエンドの音声合成を行う WaveGlow ボコーダを適用する。
実験結果
リサーチクエスチョン
- RQ1自己回帰モデルと同等の音声品質を、非自己回帰・並列生成のメルスペクトログラムで達成できるか。
- RQ2長さレギュレータと正確な音素持続時間予測は語のスキップ・繰り返しエラーを減らせるか。
- RQ3自己回帰 TTS と比較してメルスペクトログラム生成とエンドツーエンド合成でどれだけの高速化が達成できるか。
- RQ4音素の持続時間を調整して、音声の速度と韻律をどの程度制御可能か。
主な発見
| Method | MOS (mean ± CI) | Notes |
|---|---|---|
| GT | 4.41 ± 0.08 | Ground truth audio |
| GT (Mel + WaveGlow) | 4.00 ± 0.09 | Mel-spectrograms + WaveGlow |
| Tacotron 2 (Mel + WaveGlow) | 3.86 ± 0.09 | Autoregressive TTS baseline |
| Merlin (WORLD) | 2.40 ± 0.13 | Parametric TTS |
| Transformer TTS (Mel + WaveGlow) | 3.88 ± 0.09 | Autoregressive Transformer TTS |
| FastSpeech (Mel + WaveGlow) | 3.84 ± 0.08 | Proposed model |
- FastSpeech は音声品質で自己回帰 Transformer TTS にほぼ匹敵する(MOS は Transformer TTS に近い)。
- メルスペクトログラム生成が 269.4 倍、エンドツーエンド合成が 38.3 倍、自己回帰 Transformer TTS と比較して高速化。
- FastSpeech は難解なテスト文で語のスキップ・繰り返しをほぼ完全に排除(0% エラー)。
- 音素持続時間のレギュレーションにより音声速度を 0.5x から 1.5x までスムーズに調整可能。
- 語間に休止を挟むことで持続時間制御を通じて韻律を改善できる。
- アブレーションにより 1D 畳み込みとシーケンスレベル知識蒸留が性能に寄与することが示された。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。