QUICK REVIEW

[論文レビュー] High Fidelity Speech Synthesis with Adversarial Networks

Mikołaj Bińkowski, Jeff Donahue|arXiv (Cornell University)|Sep 25, 2019

Speech and Audio Processing参考文献 52被引用数 104

ひとこと要約

GAN-TTS はフィードフォワード型のジェネレーターとランダムウィンドウ判別器のアンサンブルを用いてテキスト読み上げの高忠実度の生音声を合成し、WaveNetに匹敵するMOSを実現し効率的な並列生成を実現します。条件付きおよび無条件ディープスピーチベースの評価指標も導入します。

ABSTRACT

Generative adversarial networks have seen rapid development in recent years and have led to remarkable improvements in generative modelling of images. However, their application in the audio domain has received limited attention, and autoregressive models, such as WaveNet, remain the state of the art in generative modelling of audio signals such as human speech. To address this paucity, we introduce GAN-TTS, a Generative Adversarial Network for Text-to-Speech. Our architecture is composed of a conditional feed-forward generator producing raw speech audio, and an ensemble of discriminators which operate on random windows of different sizes. The discriminators analyse the audio both in terms of general realism, as well as how well the audio corresponds to the utterance that should be pronounced. To measure the performance of GAN-TTS, we employ both subjective human evaluation (MOS - Mean Opinion Score), as well as novel quantitative metrics (Fréchet DeepSpeech Distance and Kernel DeepSpeech Distance), which we find to be well correlated with MOS. We show that GAN-TTS is capable of generating high-fidelity speech with naturalness comparable to the state-of-the-art models, and unlike autoregressive models, it is highly parallelisable thanks to an efficient feed-forward generator. Listen to GAN-TTS reading this abstract at https://storage.googleapis.com/deepmind-media/research/abstract.wav.

研究の動機と目的

敵対的に訓練されたフィードフォワードネットワークが高忠実な生音声波形を生成できることを示す。
ランダムウィンドウ判別器のアンサンブル（条件付きおよび無条件）を提案し、現実性とテキスト発話の整合性を評価する。
Fréchet距離とKernel距離に基づくDeepSpeech特徴量を用いた客観的な音声生成指標を導入する。
自動回帰ベースラインに対してGAN-TTSを評価し、アーキテクチャ選択を検証するためのアブレーションを行う。

提案手法

GAN-TTS を提案する: 条件付きフィードフォワードジェネレータが200 Hz の言語/ピッチ特徴量から24 kHz の生データ音声を生成する。
複数のウィンドウサイズで Random Window Discriminators (RWDs) のアンサンブルを実装し、条件付きおよび無条件のバリアントを持つ。
RWDアンサンブルを用いた対生成的損失で訓練し、現実味とテキスト・発話の一貫性を促進する。
主観的MOSと客観指標で評価: FDSD/KDSD および cFDSD/cKDSD は DeepSpeech特徴に基づく。
長距離依存性を持たせるためジェネレータで mu-law エンコードと膨張畳み込みブロックおよび残差接続を使用。

実験結果

リサーチクエスチョン

RQ1非自動回帰のフィードフォワードジェネレータと判別器のアンサンブルが自動回帰モデルと同等の自然さの音声を生成できるか。
RQ2複数のウィンドウサイズにわたるランダムウィンドウ判別器は現実味とテキスト発話の整合性を改善するか。
RQ3DeepSpeechベースの Fréchet および Kernel 距離は TTS モデルの人間の MOS の信頼できる相関指標になるか。
RQ4条件付き対無条件ディスクリプタのさまざまな構成が品質と評価指標にどのように影響するか。

主な発見

最良の GAN-TTS モデルは MOS が 4.213±0.046 で、WaveNet のような強力なベースラインに匹敵する。
全体のマルチウィンドウ・ディスクリミネータアンサンブルは、単一ディスクリミネータおよび決定論的完全ディスクリミネータよりも MOS と指標で上回る。
無条件 RWD は性能を改善し、複数の条件付き RWD を無条件 RWD と組み合わせるとアブレーションの中で最高の結果となる。
Conditional/Unconditional Fréchet DeepSpeech Distance (FDSD) および Kernel DeepSpeech Distance (KDSD) は MOS と相関し、評価に有用であることを支持する。
GAN-TTS は自己回帰モデルと比較可能な自然さを提供しつつ、より並列可能で効率的な波形生成を実現する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。