QUICK REVIEW

[論文レビュー] Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling

Jonathan Shen, Jia Ye|arXiv (Cornell University)|Oct 8, 2020

Neural Networks and Applications参考文献 52被引用数 73

ひとこと要約

本論文は Tacotron 2 の attention を明示的な duration predictor と Gaussian upsampling に置換し、監督付き・半監督付き・無監督の duration モデリングを用いた、堅牢で制御可能な TTS を実現する。

ABSTRACT

This paper presents Non-Attentive Tacotron based on the Tacotron 2 text-to-speech model, replacing the attention mechanism with an explicit duration predictor. This improves robustness significantly as measured by unaligned duration ratio and word deletion rate, two metrics introduced in this paper for large-scale robustness evaluation using a pre-trained speech recognition model. With the use of Gaussian upsampling, Non-Attentive Tacotron achieves a 5-scale mean opinion score for naturalness of 4.41, slightly outperforming Tacotron 2. The duration predictor enables both utterance-wide and per-phoneme control of duration at inference time. When accurate target durations are scarce or unavailable in the training data, we propose a method using a fine-grained variational auto-encoder to train the duration predictor in a semi-supervised or unsupervised manner, with results almost as good as supervised training.

研究の動機と目的

注意機構を用いたニューラル TTS の頑健性の課題を動機づけ、繰り返しや長いポーズといった不具合のリスクを低減する。
注意機構の代わりに duration predictor と Gaussian upsampling を用いる Non-Attentive Tacotron (NAT) を導入する。
FVAE ベースのアライメントを介して、監視付き・半監視付き・無監視の duration 情報での学習を可能にする。
推論時に発話全体のペースと音素ごとの持続時間を制御しつつ、品質を維持する方法を提供する。
大規模な頑健性評価のための頑健な自動評価指標（UDR と WDR）を提案する。

提案手法

Tacotron 2 の attention を duration predictor と Gaussian upsampling に置換し、エンコーダ出力をアップサンプリングする。
トークンごとの duration d と Gaussian upsampling の範囲パラメータ sigma を予測する。
トークン区間を中心とする Gaussian 混合体でエンコーダ出力をアップサンプリングし、デコーダの整列入力を形成する。
mel-spectrogram の再構成と duration 予測を組み合わせた損失（L_spec と L_dur）で学習する。
FVAE を用いてターゲットスペクトログラムからトークン整列潜在特徴を抽出し、duration prediction を通知することで semi-supervised/unsupervised duration モデリングをサポートする。
予測された duration を操作して、推論時に発話全体のペースと音素ごとのタイミングを制御できるようにする。

実験結果

リサーチクエスチョン

RQ1 duration predictor と Gaussian upsampling による明示的な duration モデリングは、注意機構を用いた Tacotron 2 より TTS の頑健性を改善できるだろうか？
RQ2完全に監視された学習と比べて、無監督または半監督の duration モデリングは自然さと頑健性の点でどう比較されるか？
RQ3NAT は発話全体および音素ごとのレベルで、品質を損なうことなくどの程度の制御可能なペースを提供できるか？
RQ4MOS を超える大規模な TTS の頑健性を評価する効果的な指標は何か（例：UDR および WDR）？

主な発見

モデル	LibriTTS UDR (%)	LibriTTS WDR (%)	web-long UDR (%)	web-long WDR (%)
Tacotron 2 w/ LSA	16.96	0.4	46.04	4.4
Tacotron 2 w/ GMMA	3.812	0.1	6.157	1.3
Non-Attentive Tacotron Supervised	0.005	0.1	0.011	1.0
Non-Attentive Tacotron Semi-supervised	0.034	0.3	0.035	1.7
Non-Attentive Tacotron Unsupervised	0.181	0.4	0.291	1.9

NAT with Gaussian upsampling は MOS テストで Tacotron 2 (GMMA) と同等の自然さを達成する。
Gaussian upsampling はバニラアップサンプリングおよび attention ベースのベースラインより頑健性を著しく向上させる。
監視付き NAT は非常に高い頑健性（低い UDR/WDR）と真の MOS に近い品質を示す。
FVAE アプローチを用いた semi-supervised および unsupervised の duration モデリングは、多くの自然さと頑健性を保持し、FVAE を用いない単純な unsupervised 手法を上回る。
高品質な合成には autoregressive デコーダが依然重要であり、非 autoregressive デコーダは NAT の自然さで劣る。
NAT は監視設定で推論時に発話全体および細かいペース制御の両方を可能にし、品質を失わない。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。