QUICK REVIEW

[論文レビュー] JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment

Dan Lim, Won Jang|arXiv (Cornell University)|May 15, 2020

Speech Recognition and Synthesis参考文献 20被引用数 18

ひとこと要約

JDI-Tは、教師付き自己回帰型Transformerから走る遅延を即座に抽出することで、明示的なアライメントや事前学習済み遅延抽出器を不要にする、1段階で統合的に学習される遅延情報付きのTransformerを提案する。この手法は、韓国語データセットにおいて、主観評価で非自己回帰的および自己回帰的ベースラインを上回る最先端の音声品質を達成した。

ABSTRACT

We propose Jointly trained Duration Informed Transformer (JDI-T), a feed-forward Transformer with a duration predictor jointly trained without explicit alignments in order to generate an acoustic feature sequence from an input text. In this work, inspired by the recent success of the duration informed networks such as FastSpeech and DurIAN, we further simplify its sequential, two-stage training pipeline to a single-stage training. Specifically, we extract the phoneme duration from the autoregressive Transformer on the fly during the joint training instead of pretraining the autoregressive model and using it as a phoneme duration extractor. To our best knowledge, it is the first implementation to jointly train the feed-forward Transformer without relying on a pre-trained phoneme duration extractor in a single training pipeline. We evaluate the effectiveness of the proposed model on the publicly available Korean Single speaker Speech (KSS) dataset compared to the baseline text-to-speech (TTS) models trained by ESPnet-TTS.

研究の動機と目的

従来の2段階プロセスと事前学習済みアライメント抽出器を必要とする遅延情報付きTTSモデルのトレーニングパイプラインを簡素化すること。
統合学習中に自己回帰的Transformerを動的遅延抽出器として活用することで、非自己回帰的TTSにおけるトレーニング安定性とアライメント信頼性を向上させること。
明示的な注意アライメントや外部の遅延監視に依存せずに、高品質で頑健かつ高速な音声合成を達成すること。
統合学習が、Tacotron2 やTransformer などの教師モデルの品質に匹敵またはそれを上回ることを評価すること。

提案手法

モデルは、フィードフォワード型Transformer、遅延予測器、自己回帰的Transformerを1つのエンドツーエンドパイプラインで統合的に学習する。
トレーニング中に自己回帰的Transformerの注意重みからリアルタイムで音素の遅延を抽出し、事前学習済みの遅延抽出器の必要性を排除する。
初期トレーニング段階での注意メカニズムの安定性を向上させるために補助損失を適用し、遅延抽出の信頼性を高める。
単調なアライメントを強制し、注意ベースの遅延推定における不安定性を低減するために、フォワード注意メカニズムを採用する。
フィードフォワード型Transformerは、予測された遅延に基づいて音素系列とメルスペクトログラム出力のアライメントを長さレギュレーターを用いて行う。
モデルは4台のV100 GPUで30万ステップのスケジュールに従いRAdamで学習され、推論にはフィードフォワード型Transformerと遅延予測器のみが使用される。

実験結果

リサーチクエスチョン

RQ1明示的なアライメント監視や事前学習済み遅延抽出器なしで、非自己回帰的TTSモデルが高品質な音声合成を達成できるか？
RQ2フィードフォワード型Transformer、遅延予測器、自己回帰的教師モデルを統合的に学習することで、2段階学習に比べてトレーニング安定性と合成品質が向上するか？
RQ3統合学習中に注意重みから即座に遅延を抽出する手法が、遅延情報付きTTSにおける事前学習済みアライメントモデルの必要性を置き換えることができるか？
RQ4提案手法は、Tacotron2 やTransformer などの自己回帰的モデル、およびFastSpeech などの非自己回帰的モデルと比較して、主観的品質でどの程度の性能を示すか？

主な発見

内部スタジオ品質データセットにおいて、JDI-Tは平均評価得点（MOS）3.77を達成し、FastSpeech（3.48）を上回り、自己回帰的Transformer（3.55）と同等の性能を示した。
KSSデータセットでは、JDI-TのMOSは3.52であり、FastSpeech（3.23）を上回り、自己回帰的Transformer（3.72）の性能に近づいた。
提案手法は、特にドメイン外のスクリプトにおいて高い合成エラー率を示す自己回帰的モデルと比較して、頑健性と高速な推論速度を示した。
統合学習フレームワークにより、事前学習済みの遅延抽出器の必要性が完全に排除され、トレーニングパイプラインが1段階に簡素化された。
補助損失とフォワード注意メカニズムにより、注意の安定性が顕著に向上し、初期トレーニング段階においても自己回帰的モデルからの信頼性の高い遅延抽出が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。