QUICK REVIEW

[論文レビュー] Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning

Wei Ping, Kainan Peng|arXiv (Cornell University)|Oct 20, 2017

Speech Recognition and Synthesis被引用数 264

ひとこと要約

Deep Voice 3 は完全畳み込み型で注意機構ベースの TTS システムで、学習がはるかに速く、large multi-speaker datasets にスケールし、複数の vocoder をサポートしつつ注意エラーを緩和して生産対応のスループットを実現します。

ABSTRACT

We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.

研究の動機と目的

高速な学習とスケーラブルなマルチ-speaker 合成を可能にする完全畳み込み型の sequence-to-sequence TTS モデルを開発する。
ニューラル TTS における一般的な注意機構の失敗モードを軽減し、忠実度と信頼性を向上させる。
自然さとデプロイ効率へ及ぼす異なる波形合成手法の影響を評価する。
高トラフィック配備のために単一 GPU サーバーでの生産対応の推論スループットを実証する。

提案手法

テキストからスペクトログラム変換とボコーダパラメータ予測のための完全畳み込みのエンコーダ–デコーダ–コンバータアーキテクチャを提案する。
位置エンコーディングを用いたマルチホップの畳み込み注意機構を用いて単調な注意を促進する。
発音を改善し注意エラーを減らすために文字と音素表現を結合して取り入れる。
メルスペクトログラム予測（デコーダ）とボコーダパラメータ予測（コンバータ）を組み合わせたマルチタスク損失で学習する。
Griffin-Lim、WORLD、WaveNet ボコーダを用いて単一話者および複数話者データセットで評価する。

実験結果

リサーチクエスチョン

RQ1完全畳み込みの注意ベース TTS モデルは、トレーニングを大幅に高速化しつつ最先端の自然さを達成できるか？
RQ2モデルは大規模なマルチスピーカーデータセット（例：LibriSpeech、VCTK）と多様なアクセントにどれだけスケールできるか？
RQ3生産対応 TTS における注意エラー（リピート、誤発音、スキップ）を軽減する効果的な戦略は何か？
RQ4異なる波形合成手法は自然さとデプロイメントスループットにどのような影響を与えるか？

主な発見

トレーニングは、同等の再帰アーキテクチャと比較して桁違いに高速（例：1 GPU 上での反復 0.06s 対 Tacotron の 0.59s）。
モデルは LibriSpeech (820 hours, 2484 speakers) および VCTK (44 hours, 108 speakers) へスケールし、競争力のある自然さを示す。
文字–音素表現の結合と推論時の単調注意により注意エラーは大幅に減少する；いくつかの構成では繰り返し・誤発音・スキップが著しく少ない。
単一話者データの MOS は vocoder によって変動： Griffin-Lim 3.62、 WORLD 3.63、 WaveNet 3.78（高いほど良い）； Tacotron（WaveNet） 3.78； Deep Voice 2（WaveNet） 2.74。
マルチスピーカー MOS： Griffin-Lim 3.01 (VCTK)、 WORLD 3.44 (VCTK)、 Griffin-Lim 2.37 (LibriSpeech)、 WORLD 2.89 (LibriSpeech); グラウンドトゥルース 4.69 (VCTK)、 4.51 (LibriSpeech)。
単一 GPU サーバーでカスタムカーネルと並列 WORLD 推論を用いて日あたり 10,000,000 クエリのスループットを目標とする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。