[論文レビュー] Deep Voice 3: Scaling Text-to-Speech with Convolutional Sequence Learning
この論文は、完全畳み込み型で注意機構を用いた TTS システム(Deep Voice 3)を提案し、再帰モデルより学習が速く、大規模なマルチスピーカデータセットへ拡張可能で、複数のボコーダをサポートしつつ、自然さで競争力を持つ。
We present Deep Voice 3, a fully-convolutional attention-based neural text-to-speech (TTS) system. Deep Voice 3 matches state-of-the-art neural speech synthesis systems in naturalness while training ten times faster. We scale Deep Voice 3 to data set sizes unprecedented for TTS, training on more than eight hundred hours of audio from over two thousand speakers. In addition, we identify common error modes of attention-based speech synthesis networks, demonstrate how to mitigate them, and compare several different waveform synthesis methods. We also describe how to scale inference to ten million queries per day on one single-GPU server.
研究の動機と目的
- 高速な学習とスケーラブルなマルチスピーカー合成を可能にする、完全畳み込み型の注意ベースTTSアーキテクチャを開発する。
- 大規模データセット(LibriSpeech 820 hours, 2484 speakers)へ学習をスケールさせつつ、高い自然さを維持する。
- ニューラルTTSにおける一般的なアテンションの失敗モードを特定し、対処する。
- 提案モデルと共に、複数の波形合成法(Griffin-Lim、WORLD、WaveNet)を評価する。
- 単一GPUサーバーでの現場運用に耐える推論スループットを実証する。
提案手法
- エンコーダ(テキストを表現へ)、デコーダ(因果的、マルチホップの注意によりメルスペクトログラムを自己回帰的に生成)、コンバーター(ボコーダパラメータを予測)の3部構成アーキテクチャを提案する。
- 長距離の文脈を逐次計算なしで実現するため、ゲーティッドリニアユニットと残差接続を備えた完全畳み込みブロックを使用する。
- アテンションに位置エンコーディングを取り入れて単調なアライメントを促進する;信頼性を高めるため、推論を単調アテンションに制約することもある。
- 発音の改善とアテンションエラーの低減のため、文字-音素表現(および混合入力)をサポートする。
- メルスペクトログラム(L1)とボコーダパラメータ損失(Griffin-Lim、WORLD、または WaveNet)の多タスク損失で学習し、堅牢な学習を促進する。
- マルチスピーカー設定では、エンコーダ・デコーダ・コンバーターで共有される話者埋め込みを学習する。
実験結果
リサーチクエスチョン
- RQ1完全畳み込み型のシーケンスツーシーケンスTTSモデルは、RNNベースのアーキテクチャと比較して学習を大幅に高速化しつつ、最先端の自然さを達成できるか。
- RQ2モデルは非常に大規模なマルチスピーカー データセット(LibriSpeech、VCTK)へどうスケールし、聴覚的品質へどのような影響を及ぼすか。
- RQ3単調アテンション制約(推論時または学習時)が、TTSにおける一般的なアテンションエラー(繰り返し、誤発音、スキップ)に対する堅牢性を改善するか。
- RQ4異なる波形合成法(Griffin-Lim、WORLD、WaveNet)が、Deep Voice 3の知覚的自然さとレイテンシにどのように影響するか。
- RQ5カスタム推論カーネルを用いた単一GPUサーバーで、どの程度の現場運用向けスループットを達成できるか。
主な発見
| モデル | MOS (VCTK) | MOS (LibriSpeech) |
|---|---|---|
| Deep Voice 3 (Griffin-Lim) | 3.01±0.29 | 2.37±0.24 |
| Deep Voice 3 (WORLD) | 3.44±0.32 | 2.89±0.38 |
| Tacotron (Griffin-Lim) | 2.07±0.31 | - |
| Ground truth | 4.69±0.04 | 4.51±0.18 |
- 学習は、同等のRNNベースアーキテクチャ(例 Tacotron)と比較して1桁のオーダーで高速化され、単一スピーカーのイテレーション時間は1 GPU上で約0.06s、Tacotronは0.59s。
- モデルはLibriSpeech(820 hours、2484 speakers)およびVCTKのようなマルチスピーカデータセットへスケールし、単一モデルで数千の声を実現できる。
- 単調なアテンション戦略(推論時の制約または単調なアライメントでの学習)が、反復、誤発音、スキップといったアテンションエラーを減少させ、出力品質を向上させる。
- MOS比較では、WaveNetボコーダが評価済みボコーダの中で最高の自然さを示す(3.78)、WORLD(3.63)およびGriffin-Lim(3.62)は僅差で続く。WaveNetは主観的品質が最も良く、WORLDはCPU推論が速い。
- マルチスピーカー LibriSpeech で、DV3 with WORLD は MOS 2.89、Griffin-Lim は 2.37、DV3 on VCTK with WORLD は 3.44 で、データセット横断の競争力ある性能を示す。
- 本システムは現場レベルの推論をサポートし、カスタムカーネルと CPU並列化 WORLD 合成を用いた単一GPUサーバーで約1000万クエリ/日程度のスループットを達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。