[論文レビュー] Non-Autoregressive Neural Text-to-Speech
本稿では、テキストを1回の順方向プロパゲーションでメルスペクトログ램に変換する非自己回帰的で完全畳み込み型のseq2seqモデル、ParaNetを提案する。これは自己回帰的対応モデル(Deep Voice 3)と比較して46.7倍高速な合成を達成しながらも、妥当な音声品質を維持している。自己回帰的教師モデルからの知識蒸留を用いて、段階的でレイヤー単位の注意機構の最適化を実施することで、アライメントの安定性を向上させた。
In this work, we propose ParaNet, a non-autoregressive seq2seq model that converts text to spectrogram. It is fully convolutional and brings 46.7 times speed-up over the lightweight Deep Voice 3 at synthesis, while obtaining reasonably good speech quality. ParaNet also produces stable alignment between text and speech on the challenging test sentences by iteratively improving the attention in a layer-by-layer manner. Furthermore, we build the parallel text-to-speech system and test various parallel neural vocoders, which can synthesize speech from text through a single feed-forward pass. We also explore a novel VAE-based approach to train the inverse autoregressive flow (IAF) based parallel vocoder from scratch, which avoids the need for distillation from a separately trained WaveNet as previous work.
研究の動機と目的
- 自己回帰的生成による遅延のボトルネックを解消する非自己回帰的テキスト音声合成モデルの開発。
- 自己回帰的TTSシステムの推論時に一般的に生じる注意機構の不整合問題に対処する。これは、教師強制学習と自己回帰的デコードの間の乖離に起因する。
- 非自己回帰的テキスト-スペクトログラムモデルと並列ニューラルボコーダーを組み合わせることで、完全に並列なTTSパイプラインを構築する。
- 事前学習済みWaveNetからの蒸留を避けて、VAEベースのアプローチを用いて逆自己回帰フロー(IAF)ボコーダーを完全にスクラッチから訓練する方法を検討する。
提案手法
- テキストからメルスペクトログラムを1回の順方向プロパゲーションで生成する非自己回帰的で完全畳み込み型のエンコーダ-デコーダー構造であるParaNetを提案する。
- 自己回帰的教師モデル(例:Deep Voice 3)からの知識蒸留を用いて、注意分布を初期化することで、推論時の安定したアライメントを実現する。
- 各デコーダーレイヤーが段階的に注意アライメントを改善する、レイヤー単位の改善メカニズムを導入。自己回帰的再帰を用いずに誤差を低減する。
- ParaNetをWaveGlowや、エンドツーエンドでスクラッチから訓練された新規のWaveVAEベースのIAFボコーダーを含む並列ニューラルボコーダーと組み合わせる。
- VAEフレームワークを用いて、WaveNetからの蒸留を一切行わず、ボコーダーの完全なエンドツーエンド訓練を可能にする。
- 非自己回帰設定におけるシーケンスモデリングとアライメント学習の向上を図るため、自己注意ブロックに位置エンコーディングを適用する。
実験結果
リサーチクエスチョン
- RQ1非自己回帰的seq2seqモデルは、自己回帰的推論のボトルネックを解消しながら、高品質な音声合成を達成できるか?
- RQ2非自己回帰的モデルにおける段階的・レイヤー単位の注意機構の最適化は、マスク有無にかかわらず、自己回帰的モデルより注意誤りを低減できるか?
- RQ3WaveNetからの蒸留を一切行わず、スクラッチから並列ニューラルボコーダーを訓練できるか。また、品質と頑健性の観点でどの程度の性能を示すか?
- RQ4知識蒸留と位置エンコーディングは、非自己回帰的TTSモデルの性能と安定性にどのような影響を与えるか?
- RQ5提案されたParaNetの合成速度は、Deep Voice 3 や FastSpeech といった自己回帰的モデルと比較してどの程度か?
主な発見
- ParaNetは、1080 Ti GPU上でリアルタイム比254.6倍の推論速度向上を達成し、自己回帰的Deep Voice 3と比較して46.7倍の高速化を実現。1つの6.11秒の発話に対して平均推論遅延は0.024秒である。
- 注意マスクを用いない状態でも、難易度の高い100文のテストセットにおいて、自己回帰的Deep Voice 3と比較して注意誤りを37から12に削減。これは、トレーニングと推論の乖離が存在しないために生じる。
- 注意マスクを適用した場合でも、ParaNetはDeep Voice 3を上回り、6つの注意誤りを記録した。これに対してDeep Voice 3は8つの誤りを記録しており、より頑健で安定していることが示された。
- アブレーションスタディの結果、知識蒸留と位置エンコーディングの両方が不可欠であることが確認された。両者のいずれかを除去すると、話声が聞き取れなくなったり、注意機構がぼやけたりする。
- ParaNetのデコーダーレイヤー数を増やすことで、注意誤りが減少し、アブレーション構成の中で17層が最良の性能を示した。
- WaveVAEベースのIAFボコーダーは、蒸留なしでエンドツーエンド訓練を可能にし、競争力のある性能を示したが、非自己回帰フロントエンドと組み合わせた場合、WaveNetに比べて一般的に頑健性に劣る傾向にあった。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。