QUICK REVIEW

[論文レビュー] Neural Speech Synthesis with Transformer Network

Naihan Li, Shujie Liu|arXiv (Cornell University)|Sep 19, 2018

Speech Recognition and Synthesis被引用数 39

ひとこと要約

この論文は、Tacotron2における再帰的ニューラルネットワーク（RNN）を、並列学習を可能にする多頭注目メカニズムに置き換えるTransformerベースのエンドツーエンドTTSモデルを提案する。これにより、長距離依存関係のモデリングが向上し、訓練速度が4.25倍速くなり、平均意見スコア（MOS）4.39という最先端の性能を達成。人間の音声品質（4.44）に非常に近い。

ABSTRACT

Although end-to-end neural text-to-speech (TTS) methods (such as Tacotron2) are proposed and achieve state-of-the-art performance, they still suffer from two problems: 1) low efficiency during training and inference; 2) hard to model long dependency using current recurrent neural networks (RNNs). Inspired by the success of Transformer network in neural machine translation (NMT), in this paper, we introduce and adapt the multi-head attention mechanism to replace the RNN structures and also the original attention mechanism in Tacotron2. With the help of multi-head self-attention, the hidden states in the encoder and decoder are constructed in parallel, which improves the training efficiency. Meanwhile, any two inputs at different times are connected directly by self-attention mechanism, which solves the long range dependency problem effectively. Using phoneme sequences as input, our Transformer TTS network generates mel spectrograms, followed by a WaveNet vocoder to output the final audio results. Experiments are conducted to test the efficiency and performance of our new network. For the efficiency, our Transformer TTS network can speed up the training about 4.25 times faster compared with Tacotron2. For the performance, rigorous human tests show that our proposed model achieves state-of-the-art performance (outperforms Tacotron2 with a gap of 0.048) and is very close to human quality (4.39 vs 4.44 in MOS).

研究の動機と目的

Tacotron2のようなRNNベースのTTSモデルの非効率性と長距離依存関係の制限を解消すること。
元々機械翻訳向けに設計されたTransformerアーキテクチャをエンドツーエンドTTS合成に適応すること。
エンコーダーとデコーダーの隠れ状態計算を完全に並列化することで、訓練速度を向上させること。
自己注意メカニズムによる長距離依存関係のモデリングにより、発音の質を向上させること。
音声素子入力とWaveNet音声生成器を用いた完全なエンドツーエンドTTSシステムで、人間に近い音声品質を達成すること。

提案手法

Tacotron2のRNNベースのエンコーダーとデコーダーを、隠れ状態の計算を並列化できる多頭注目メカニズムに置き換える。
エンコーダーとデコーダーの両方に多頭注目を導入し、逐次的でない順序で長距離依存関係を捉える。
音声素子のシーケンスを入力とし、メルスペクトログ램をエンドツーエンドで生成した後、WaveNet音声生成器で波形を合成する。
時間的依存関係をよりよくモデル化するため、相対的位置エンコーディングを用いた標準Transformerアーキテクチャの変種を採用する。
訓練の安定性と勾配の流れの改善のため、残差接続と層正則化を適用する。
メルスペクトログラム予測に対するクロスエントロピー損失を用いた、シーケンス・トゥ・シーケンスフレームワークでモデルを訓練する。

実験結果

リサーチクエスチョン

RQ1Transformerアーキテクチャは、TTSにおけるRNNの置き換えとして有効に機能し、訓練効率を向上させることができるか？
RQ2エンコーダーとデコーダーに多頭注目を導入することで、音声シーケンスにおける長距離依存関係のモデリングが向上するか？
RQ3TransformerベースのTTSモデルは、Tacotron2と比較して人間に近い音声品質を達成できるか？
RQ4提案モデルの訓練速度は、Tacotron2と比べてどの程度向上するか？
RQ5レイヤー数やヘッド数といったハイパーパrameterは、モデルの性能と安定性に最も顕著に影響を与えるか？

主な発見

提案されたTransformer TTSモデルは、平均意見スコア（MOS）4.39を達成し、人間基準（4.44）に非常に近い。
CMOSで0.048の優位性を示し、Tacotron2を上回り、最先端の性能を達成した。
隠れ状態計算の完全な並列化により、訓練速度がTacotron2と比較して4.25倍速くなった。
レイヤー数を増やす（例：3から6に）ことで、メルスペクトログラムの高周波数領域のモデリングが向上し、音声品質が向上した。
バッチサイズは、特に深いモデルにおいて、訓練の安定性に重要な要因であることが判明した。
自己注意により、任意の2つの時刻間で直接注目を向けることが可能となり、長距離依存関係の問題が効果的に緩和された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。