QUICK REVIEW

[論文レビュー] Multi-Speaker End-to-End Speech Synthesis

Jihyun Park, Kexin Zhao|arXiv (Cornell University)|Jul 9, 2019

Speech Recognition and Synthesis参考文献 21被引用数 25

ひとこと要約

この論文では、すべてのネットワーク部品に埋め込まれたバイアスとして注入される共有で学習可能なスプーカー埋め込みを用いて、高精細でスプーカー固有の音声を生成するエンド・ツー・エンドのテキスト・トゥ・ウェーブ音声合成モデル、マルチスプーカー ClariNet を提案する。モデルはエンド・ツー・エンドで全コンポONENTを同時に最適化することで、自然さとスプーカーの識別可能性において最先端のシステムを上回り、人間の声に近いスプーカー類似度とスプーカー認識タスクにおける低EERを達成した。

ABSTRACT

In this work, we extend ClariNet (Ping et al., 2019), a fully end-to-end speech synthesis model (i.e., text-to-wave), to generate high-fidelity speech from multiple speakers. To model the unique characteristic of different voices, low dimensional trainable speaker embeddings are shared across each component of ClariNet and trained together with the rest of the model. We demonstrate that the multi-speaker ClariNet outperforms state-of-the-art systems in terms of naturalness, because the whole model is jointly optimized in an end-to-end manner.

研究の動機と目的

単一スプーカー用 ClariNet モデルをエンド・ツー・エンドで複数スプーカーをサポートするように拡張すること。
スプーカー認識のためのモジュールを別々に訓練するのではなく、すべてのコンポONENTを同時に最適化することで音声合成品質を向上させること。
ネットワーク全体にスプーカー埋め込みを注入することで、別個のスプーカー適応モジュールなしに、独自の声の特徴を効果的にモデル化できることを示すこと。
モデルが自然さとスプーカー固有の個体識別性を備えた音声を生成し、実際の人間の声と同等の水準に達することを検証すること。

提案手法

エンコーダー、デコーダー、ブリッジネット、ボコーダーを含む ClariNet のすべてのコンポonentに共通して使用される、学習可能な低次元スプーカー埋め込みを導入する。
エンコーダー、デコーダー、ブリッジネット、WaveNet ボコーダーの畳み込みブロックにスプーカー埋め込みを加法的バイアスとして注入し、スプーカー固有の音声生成を可能にする。
隠れ状態をブリッジネットから供給される条件付きガウス自己回帰 WaveNet をボコーダーとして採用し、テキストから波形への直接エンド・ツー・エンド生成を実現する。
エンコーダーからボコーダーへの情報の圧縮と転送を非因果的畳み込みブリッジネットで行い、時間的文脈を保持する。
生テキストから生波形へのエンド・ツー・エンドの訓練と推論を実現し、別個のボコーダーやパイプラインコンponentの必要性を排除する。
性別や地域といった明示的ラベルを用いずにスプーカー埋め込みを適用し、スプーカー表現を暗黙的に学習可能にする。

実験結果

リサーチクエスチョン

RQ1別個のスプーカー適応モジュールを必要とせず、エンド・ツー・エンドのテキスト・トゥ・ウェーブモデルが複数スプーカー向けに高精細な音声を効果的に生成できるか？
RQ2すべてのネットワークコンポonentに注入された共有スプーカー埋め込みが、多様な声の特徴をどれほど効果的にモデル化できるか？
RQ3全モデルを同時に最適化することで、別々のテキスト・トゥ・スペクトログ램段階とボコーダー段階を持つシステムに比べ、音声の自然さが向上するか？
RQ4スプーカー分類と認識の指標で測定した場合、学習されたスプーカー埋め込みがどれほどスプーカー個体識別性を保持しているか？
RQ5モデルが人間の声と同等の類似度を持つ、識別可能でスプーカー固有の声を生成できるか？

主な発見

マルチスプーカー ClariNet モデルは、ボコーダーの層数が少ないにもかかわらず、音声合成における最先端の自然さを達成した。
VCTK データセットにおけるスプーカー分類精度は、生成されたサンプルが実録音声と同等に識別可能であることを示し、正解とベースラインモデルと同等の性能を示した。
スプーカー認識の等誤差率（EER）は、実際の VCTK レコーディングと同等であり、1回の登録時で 1.8%、5回の登録時で 1.2% であった。これは、高いスプーカー個体識別性を示している。
2次元空間に可視化されたスプーカー埋め込みは、性別や地域（例：イギリス対北米）ごとに明確なクラスタリングを示しており、モデルが意味的かつ分離可能なスプーカー表現を学習していることを示している。
別個のボコーダーを必要とせず、テキストから生波形へのエンド・ツー・エンドの訓練と推論を実現し、高品質でスプーカー固有の音声を生成した。
スプーカー埋め込みの潜在空間は、性別や地域的起源を明示的に学習しないままでも、判別可能なスプーカー特徴を捉えている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。