QUICK REVIEW

[論文レビュー] YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

Edresson Casanova, Julian Weber|arXiv (Cornell University)|Dec 4, 2021

Speech Recognition and Synthesis被引用数 30

ひとこと要約

YourTTS は zero-shot 多話者・多言語トレーニングを用いて VITS を拡張し、zero-shot TTS で VCTK における最先端の結果を達成し、zero-shot VC でも競争力を持ちつつ、非常に小さな話者サンプルからの適応を可能にします。

ABSTRACT

YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.

研究の動機と目的

多言語設定でゼロショット多話者TTSを進展させる。
最小限のターゲット話者データを用いて言語を跨ぐゼロショット音声変換を可能にする。
未知の話者や録音条件への一般化を向上させる。
ターゲット話者の音声が1分未満でのファインチューニングを示し、類似度を向上させる。

提案手法

エンドツーエンド設定で、TTSエンコーダ、フロー型デコーダ、HiFi-GAN vocoderを備えたVITSフレームワークを拡張する。
生のテキスト（音素ではなく）を入力とし、入力文字に連結された4次元の学習可能な言語埋め込みを用いて多言語トレーニングを行う。
モデル容量を増やし（10 個の Transformer ブロック、196 隠れチャネル）、WaveNet 残差ブロックを備える4層のアフィン結合スタックを使用する。
中間のMelスペクトログラムなしでエンドツーエンド訓練を可能にする、 vocoder と flow-based decoder の両方を条件づける潜在表現 z を生成する Posterior Encoder を使用する。
ゼロショットの多話者合成のため、外部話者埋め込みをすべての主要コンポーネントに条件づける。
事前学習済みの話者エンコーダを用いて地上真実と生成話者埋め込みのコサイン類似度を最大化する Speaker Consistency Loss (SCL) を組み込む。
自然な話速リズムを生成する確率的な duration predictor を採用し、訓練時には MAS ベースのアライメントを行う。
言語条件付き埋め込みとバランスの取れたバッチを用いた多言語トレーニングを実施し、English、Portuguese、French のセットアップで評価する。

実験結果

リサーチクエスチョン

RQ1高い話者類似性と自然さを持つ multilingual 設定で、ゼロショット多話者 TTS を達成できるか？
RQ2VCTK でゼロショット音声変換が最先端手法と競合し、低リソースのターゲット言語へ転移可能か？

主な発見

英語 VCTK における類似性（SECS）と品質（MOS/Sim-MOS）の観点で、ゼロショット多話者 TTS の最先端結果を達成。
VCTK におけるゼロショット音声変換で SOTA に匹敵する結果を得て、評価ペア全体で競争力のある MOS および Sim-MOS を示す。
英語、ポルトガル語、フランス語の多言語データで訓練し、MLS-Portuguese や LibriTTS を含むターゲット言語データセットで評価することで、言語間のゼロショット能力を実証。
ターゲット話者音声が1分未満のファインチューニングで話者類似性が著しく向上することを示し、英語とポルトガル語の双方で Sim-MOS と SECS の顕著な向上を示す。
ゼロショット音声変換の転送は、言語内転送の方が言語間転送よりも良好に機能し、訓練時の性別バランスが言語間結果に影響を与える（特にポルトガル語の女性転送で顕著）。
低リソース言語におけるゼロショット多話者 TTS の可能性を示唆し、持続時間予測の安定性とポルトガル語の発音ミスの限界を指摘している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。