QUICK REVIEW

[論文レビュー] Deep Voice 3: 2000-Speaker Neural Text-to-Speech

Wei Ping, Kainan Peng|arXiv (Cornell University)|Oct 20, 2017

Speech Recognition and Synthesis参考文献 14被引用数 232

ひとこと要約

Deep Voice 3 は、完全畳み込み型でアテンションベースの神経的音声合成システムであり、従来の手法と比較して10倍速く学習が可能であり、最先端の自然さを達成している。800時間以上、2,000人以上の話者の音声データにスケーリング可能で、1枚のGPUで1日1,000万件のクエリを処理する推論が可能である。

ABSTRACT

We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.

研究の動機と目的

完全畳み込み型でアテンションベースの神経的TTSシステムを開発し、最先端の自然さを実現すること。
TTSの学習を、800時間を超える音声データと2,000人を超える話者を含む前例のない規模のデータセットにスケーリングすること。
アテンションベースの音声合成ネットワークに一般的に見られる誤りモードを特定し、体系的に是正すること。
大規模TTSシステムにおけるさまざまな波形合成手法の比較と評価すること。
1枚のGPUで1日1,000万件のクエリを処理できる高スループットの推論を可能にすること。

提案手法

再帰層を一切含まない完全畳み込み型アーキテクチャを採用しており、これにより学習と推論が高速化される。
自己回帰的生成中にテキスト入力と音声出力をアラインメントするため、アテンション機構を採用している。
波形合成には微分可能ボコーダーを用い、品質と効率性を評価する複数の手法を検討している。
2,000人以上の話者と800時間以上の音声データからなる大規模データセット上で、エンドツーエンドでモデルを学習している。
再帰モデルと比較して計算上のボトル neck を低減するアーキテクチャ的選択により、学習効率を向上させている。
推論のスケーラビリティを最適化し、モデルの量子化と効率的な推論パイプラインにより、1枚のGPUで1日1,000万件のクエリを処理している。

実験結果

リサーチクエスチョン

RQ1完全畳み込み型TTSアーキテクチャは、再帰構造を含まないにもかかわらず、なぜ従来のシステムと比較して10倍速く学習可能であり、最先端の自然さを達成できるのか？
RQ2アテンションベースのTTSにおける代表的な誤りモードは何か？そして、それらはどのように体系的に是正できるか？
RQ3大規模データセットにスケーリングした場合、さまざまな波形合成手法の品質と効率性は、どのように比較されるか？
RQ4800時間以上、2,000人以上の話者を含む非常に大規模なデータセットにスケーリングした場合、性能劣化が生じない程度にまでモデルを拡張できるか？
RQ5生産環境における1GPUデプロイにおいて、どの程度の推論スループットが達成可能か？

主な発見

Deep Voice 3 は再帰構造を含まない完全畳み込み型アーキテクチャであるにもかかわらず、神経的TTS分野で最先端の自然さを達成している。
再帰モデルと比較して、アーキテクチャの効率性のおかげで、10倍速く学習が可能である。
アテンションベースTTSに一般的に見られる誤りモード（例：アテンションの不整合、レアワードの無視）は、アーキテクチャ的・学習プロトコル上の変更により特定され、是正された。
複数の波形合成手法を比較した結果、微分可能ボコーダーは品質とエンドツーエンド学習との相性において優れたパフォーマンスを示した。
1枚のGPUで1日1,000万件のクエリを処理できる推論を実現しており、高いスケーラビリティを示している。
2,000人を超える話者と800時間以上の音声データにスケーリングしても性能劣化が生じず、アーキテクチャの堅牢性が確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。