QUICK REVIEW

[論文レビュー] End-to-End Adversarial Text-to-Speech

Jeff Donahue, Sander Dieleman|arXiv (Cornell University)|Jun 5, 2020

Music and Audio Processing参考文献 75被引用数 33

ひとこと要約

この論文は、 differentiable aligner と adversarial training を用いて直接文字または音素を生の音声へマッピングするエンドツーエンドのテキスト音声合成システム EATS を提案し、最小限の中間監視で現状最先端に近い MOS を達成します。

ABSTRACT

Modern text-to-speech synthesis pipelines typically involve multiple processing stages, each of which is designed or learnt independently from the rest. In this work, we take on the challenging task of learning to synthesise speech from normalised text or phonemes in an end-to-end manner, resulting in models which operate directly on character or phoneme input sequences and produce raw speech audio outputs. Our proposed generator is feed-forward and thus efficient for both training and inference, using a differentiable alignment scheme based on token length prediction. It learns to produce high fidelity audio through a combination of adversarial feedback and prediction losses constraining the generated audio to roughly match the ground truth in terms of its total duration and mel-spectrogram. To allow the model to capture temporal variation in the generated audio, we employ soft dynamic time warping in the spectrogram-based prediction loss. The resulting model achieves a mean opinion score exceeding 4 on a 5 point scale, which is comparable to the state-of-the-art models relying on multi-stage training and additional supervision.

研究の動機と目的

文字または音素入力に直接作用して生の音声を生成するエンドツーエンド TTS モデルを動機づけ、開発する。
従来のマルチステージ TTS のボトルネックを排除するため、単一の微分可能ジェネレータ内で中間表現を学習する。
敵対的フィードバックとスペクトログラムベースの予測損失を活用して、アライメントと音声の忠実度を導く。
実時間または高速推論に適した効率的な前向き伝播トレーニングとサンプリングを実現。
エンドツーエンド学習が監督を減らして現状最先端の品質に近づくことを示す。

提案手法

微分可能なアライナー（単調補間による200 Hzの整列表現）とデコーダ（24 kHzへアップサンプリング）からなる2ブロックのジェネレータを用い、生の音声を生成。
GAN-TTSに触発されたデコーダがウェーブフォームを生成する、入力条件付きで話者埋め込み潜在空間。
生音声およびスペクトル特性への敵対的フィードバックを提供する、ランダム窓識別器(RWDs)のエンサンブルとスペクトログラム識別器。
対数メルドメインでのスペクトログラム予測損失によるブートストラップ訓練とアライメントの導き、厳密なアライメントを緩和するソフトDTW(loss)で補完。
単調補間ベースのアライナー、トークン長予測が時間的アライメントを導き、現実的な発話長を促す長さ損失。
発音記号または文字入力によるテキスト前処理、オプションの音素化と正規化、沈黙を確保するパディング。

実験結果

リサーチクエスチョン

RQ1中間の整列済み言語特徴量を介さず、テキストまたは音素から直接自然な音声を合成するエンドツーエンドの前向きTTSモデルは可能か。
RQ2微分可能なアライメントと敵対的フィードバックは、エンドツーエンド TTS フレームワークにおける正確な継続時間モデリングと波形生成をどのように可能にするか。
RQ3ソフトDTWとスペクトログラムベースの損失を組み込むと、非自己回帰ジェネレータにおけるアライメント学習と音声忠実度が向上するか。
RQ4エンドツーエンドTTSシステムにおける多声データと単声データの自然さ（MOS）への影響は何か。
RQ5監督を減らした場合、エンドツーエンドの敵対的TTSは現状最先端の品質にどれだけ近づくか。

主な発見

基本の多声EATSモデルは平均主観評価MOS 4.083 ± 0.049 を達成し、最先端の結果に迫る。
アブレーションにより、ランダム窓識別器、メルスペクトログラム識別器、あるいは識別器自体を削除するとMOSが低下することが示され、敵対的フィードバックの重要性を示す。
DTWベースのスペクトログラム予測損失と単調補間アライナーは、他の方法と比較して時間的忠実性と自然さを大幅に向上させる。
大規模な多声データセット（69人のスピーカー、約260時間）での訓練は、単一声の訓練よりMOSを改善（単一話者のMOSは3.829）。
音素ベースの入力は、露わな文字入力より発音信頼性を向上させ、報告評価でより高いMOSを生む。
モデルは前向き伝播モードで動作し、1つのNVIDIA V100 GPUで音声を生成できる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。