[論文レビュー] Close to Human Quality TTS with Transformer
この論文では、Tacotron2のRNNとアテンション機構をマルチヘッド自己注意に置き換えたTransformerベースのTTSモデルを提案している。これにより、4.25倍の高速化が達成され、長距離依存関係のモデリングが向上する。人的評価では、人間の基準(MOS 4.44)に非常に近い水準の4.39を達成し、Tacotron2の4.34を上回った。
Although end-to-end neural text-to-speech (TTS) methods (such as Tacotron2) are proposed and achieve state-of-the-art performance, they still suffer from two problems: 1) low efficiency during training and inference; 2) hard to model long dependency using current recurrent neural networks (RNNs). Inspired by the success of Transformer network in neural machine translation (NMT), in this paper, we introduce and adapt the multi-head attention mechanism to replace the RNN structures and also the original attention mechanism in Tacotron2. With the help of multi-head self-attention, the hidden states in the encoder and decoder are constructed in parallel, which improves the training efficiency. Meanwhile, any two inputs at different times are connected directly by self-attention mechanism, which solves the long range dependency problem effectively. Using phoneme sequences as input, our Transformer TTS network generates mel spectrograms, followed by a WaveNet vocoder to output the final audio results. Experiments are conducted to test the efficiency and performance of our new network. For the efficiency, our Transformer TTS network can speed up the training about 4.25 times faster compared with Tacotron2. For the performance, rigorous human tests show that our proposed model achieves state-of-the-art performance (outperforms Tacotron2 with a gap of 0.048) and is very close to human quality (4.39 vs 4.44 in MOS).
研究の動機と目的
- Tacotron2のようなエンドツーエンドTTSモデルの低効率な学習および推論を改善すること。
- 順序付きTTSデータにおけるRNNの長距離依存関係のモデリングにおける制限を克服すること。
- エンコーダーとデコーダーにマルチヘッド自己注意を導入することで、RNNと元のアテンションを置き換えることにより、音声品質を向上させること。
- テキストtoスピーチ合成において、人間水準に非常に近い最先端のパフォーマンスを達成すること。
提案手法
- Tacotron2のRNNベースのエンコーダーとデコーダーを、マルチヘッド自己注意を用いたTransformerエンコーダーとデコーダーブロックに置き換える。
- マルチヘッド自己注意を用いて、文脈表現を並列で計算することで、逐次的再帰の排除と学習速度の向上を実現する。
- 任意の2つの時刻の表現同士を直接接続する自己注意を適用することで、長距離依存関係の効果的なモデリングを可能にする。
- 入力として発音記号系列を用い、メルスペクトログ램を生成し、その後WaveNetボコーダーを用いて生の音声に変換する。
- 自己回帰的生成に適応するよう、位置エンコーディングとアテンション機構を変更することで、TTSタスクに適したTransformerアーキテクチャに変更する。
- メルスペクトログラム予測に対するL1およびL2損失の組み合わせを用いて、エンドツーエンドでモデルを学習する。
実験結果
リサーチクエスチョン
- RQ1TTSにおけるRNNを自己注意に置き換えることで、性能を損なわせることなく学習効率を向上させることができるか?
- RQ2自己注意は、RNNと比較してTTSシーケンスにおける長距離依存関係をどれほど効果的にモデリングできるか?
- RQ3TransformerベースのTTSモデルは、人的評価において人間の水準に近い品質を達成できるか?
- RQ4MOS(平均意見スコア)において、Tacotron2と比較してどの程度の定量的改善が得られたか?
- RQ5学習プロセスはTacotron2と比較してどの程度速くなったか?
主な発見
- 提案されたTransformer TTSモデルは、Tacotron2と比較して4.25倍の高速化を達成した。
- 人的評価において、モデルは4.39の平均意見スコア(MOS)を達成し、Tacotron2を上回った。
- 4.39のMOSは、人間基準の4.44に非常に近く、人間水準の品質を示している。
- すべての時刻間の直接的なアテンション接続のおかげで、長距離依存関係が効果的にモデリングされている。
- マルチヘッド自己注意の導入により、隠れ状態の並列計算が可能となり、学習効率が顕著に向上した。
- WaveNetボコーダーは、生成されたメルスペクトログラムを高精細音声に効果的に変換し、高い知覚的品質に貢献した。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。