[論文レビュー] Deep Voice 2: Multi-Speaker Neural Text-to-Speech
共同モデル内で複数話者のニューラル TTS を可能にする訓練可能な低次元の話者埋め込みを導入し、単一話者のベースラインを改善し、数百話者にわたる高品質で区別可能な声を実現する。Deep Voice 2 と Tacotron を WaveNet vocoders と組み合わせて。
We introduce a technique for augmenting neural text-to-speech (TTS) with lowdimensional trainable speaker embeddings to generate different voices from a single model. As a starting point, we show improvements over the two state-ofthe-art approaches for single-speaker neural TTS: Deep Voice 1 and Tacotron. We introduce Deep Voice 2, which is based on a similar pipeline with Deep Voice 1, but constructed with higher performance building blocks and demonstrates a significant audio quality improvement over Deep Voice 1. We improve Tacotron by introducing a post-processing neural vocoder, and demonstrate a significant audio quality improvement. We then demonstrate our technique for multi-speaker speech synthesis for both Deep Voice 2 and Tacotron on two multi-speaker TTS datasets. We show that a single neural TTS system can learn hundreds of unique voices from less than half an hour of data per speaker, while achieving high audio quality synthesis and preserving the speaker identities almost perfectly.
研究の動機と目的
- neural TTS モデルが、1つのモデル内で複数の話者の声を学習し、話者ごとのデータを減らすことができることを実証する。
- prior Deep Voice 1 や Tacotron のベースラインを超える単一話者 TTS の品質を改善する。
- 訓練可能な話者埋め込みがモデルの異なるコンポーネントを条件付けて異なる声を生成できることを示す。
- Deep Voice 2 と Tacotron を多声設定に拡張し、話者の識別性と品質をさまざまなデータセットで評価する。
提案手法
- Deep Voice 1 を基に、セグメンテーション、時間長、周波数、声モデルを改善した Deep Voice 2 を開発する。
- Tacotron の Griffin-Lim を置換する WaveNet ベースのスペクトログラムから音声へのボコーダを導入する。
- 多声合成を実現するために、初期化、入力、ゲーティングなど、モデルの複数の部位に低次元の訓練可能な話者埋め込みを組み込む。
- セグメンテーション、時間長、周波数、声の成分に対して、再帰的初期化や入力付加などの戦略を用いて部位特異的な話者埋め込みを適用する。
- Tacotron では、エンコーダを話者埋め込みで条件付け、スペクトログラムから音声への変換には WaveNet ボコーダを用いる。
実験結果
リサーチクエスチョン
- RQ1訓練可能な低次元の話者埋め込みを用いて、単一のニューラル TTS モデルが数百の話者の高品質な音声を生成できるか。
- RQ2 VCTK やオーディオブックのようなデータセットでの多声訓練から生じるデータ効率と品質のトレードオフはどうなるか。
- RQ3 話者埋め込みは、セグメンテーション、時間長、周波数、ボコーダー経路にどのように影響して話者アイデンティティを維持するか。
- RQ4 Griffin-Lim を WaveNet ボコーダに置換することで、単一話者および多声 TTS の知覚的音質が向上するか。
- RQ5 多様な話者に対して、合成された声は実際のグラウンドトゥルースとどれくらい識別可能か。
主な発見
| データセット | 多声モデル | サンプル周波数 | MOS | 精度 |
|---|---|---|---|---|
| VCTK | Deep Voice 2 (20-layer WaveNet) | 16 KHz | 2.87 ± 0.13 | 99.9% |
| VCTK | Deep Voice 2 (40-layer WaveNet) | 16 KHz | 3.21 ± 0.13 | 100 % |
| VCTK | Deep Voice 2 (60-layer WaveNet) | 16 KHz | 3.42 ± 0.12 | 99.7% |
| VCTK | Deep Voice 2 (80-layer WaveNet) | 16 KHz | 3.53 ± 0.12 | 99.9% |
| VCTK | Tacotron (Griffin-Lim) | 24 KHz | 1.68 ± 0.12 | 99.4% |
| VCTK | Tacotron (20-layer WaveNet) | 24 KHz | 2.51 ± 0.13 | 60.9% |
| Ground Truth Data | - | 48 KHz | 4.65 ± 0.06 | 99.7% |
| Audiobooks | Deep Voice 2 (80-layer WaveNet) | 16 KHz | 2.97 ± 0.17 | 97.4% |
| Audiobooks | Tacotron (Griffin-Lim) | 24 KHz | 1.73 ± 0.22 | 93.9% |
| Audiobooks | Tacotron (20-layer WaveNet) | 24 KHz | 2.11 ± 0.20 | 66.5% |
| Ground Truth Data | - | 44.1 KHz | 4.63 ± 0.04 | 98.8% |
- Deep Voice 2 は単一話者 MOS の評価で Deep Voice 1 を上回り、品質の顕著な向上を示した。
- WaveNet ボコーダを用いた Tacotron は Griffin-Lim を用いた Tacotron より MOS が高く、音声品質が向上していることを示した。
- 単一のモデルで、1話者あたり約半時間未満のデータで数百の独自の声を学習でき、品質と声の識別性を維持できる。
- 多声 Deep Voice 2 と多声 Tacotron は、複数のデータセットにわたり、MOS 値と話者識別精度がグランドトゥルースに近い水準となる。
- VCTK では、40層 WaveNet を用いた Deep Voice 2 は MOS 3.21 ± 0.13、話者精度 100.0%、80層 WaveNet では MOS 3.53 ± 0.12、精度 99.9%、グランドトゥルースはそれぞれ MOS 4.65 ± 0.06、精度 99.7% である。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。