QUICK REVIEW

[論文レビュー] YourTTS: Towards Zero-Shot Multi-Speaker TTS and Zero-Shot Voice Conversion for everyone

Edresson Casanova, Julian Weber|arXiv (Cornell University)|Dec 4, 2021

Speech Recognition and Synthesis被引用数 51

ひとこと要約

YourTTSはVITSを基盤に新機能を導入することでゼロショット型多話者TTSとゼロショット音声変換を多言語訓練で進化させ、VCTKでSOTAを達成し、ゼロショットVCでは競争力のある結果を示し、極めて短い話者サンプルからの効果的な適応を実現します。

ABSTRACT

YourTTS brings the power of a multilingual approach to the task of zero-shot multi-speaker TTS. Our method builds upon the VITS model and adds several novel modifications for zero-shot multi-speaker and multilingual training. We achieved state-of-the-art (SOTA) results in zero-shot multi-speaker TTS and results comparable to SOTA in zero-shot voice conversion on the VCTK dataset. Additionally, our approach achieves promising results in a target language with a single-speaker dataset, opening possibilities for zero-shot multi-speaker TTS and zero-shot voice conversion systems in low-resource languages. Finally, it is possible to fine-tune the YourTTS model with less than 1 minute of speech and achieve state-of-the-art results in voice similarity and with reasonable quality. This is important to allow synthesis for speakers with a very different voice or recording characteristics from those seen during training.

研究の動機と目的

ゼロショット多話者TTS（ZS-TTS）を多言語設定で進化させる。
低資源・多言語文脈でのゼロショット音声変換（ZS-VC）を改善する。
非常に短いターゲット話者データで新規話者への適応を効果的に行えるようにする。
音素入力への依存を排除し言語適用範囲を広げる。
単一モデル内で言語横断の転移とコードスイッチ機能を実証する。）

提案手法

VITSを基盤にZS-TTSおよび多言語訓練のためのいくつかの新規改良を追加する。
文字エンコーダをトランスフォーマー型にし、言語埋め込みを文字埋め込みと連結して音素入力の代わりとする。
モデル容量を拡大（10 Transformerブロック、196隠れチャネル）し、WaveNet残差ブロックを備えた4層のアフィン結合デコーダを使用。
識別器の手直しを含むHiFi-GAN v1ベースのボコーダーを採用; 中間メルスペクトログラムを介さず、Posterior Encoder（VAEベース）によるエンドツーエンド訓練を実現。
外部話者埋め込みがすべてのアフィン結合層、後部エンコーダ、ボコーダーの条件付けを駆動し、ゼロショット機能を実現。
Speaker Consistency Loss (SCL)を導入し、生成とグラウンドトゥルー話者埋め込みのコサイン類似度を最大化する。
話者の音声リズムをモデリングする確率的持続時間予測と、訓練時にテキストと潜在空間を整合させるMonotonic Alignment Search (MAS)を採用。

実験結果

リサーチクエスチョン

RQ1単一の多言語TTSモデルが言語を跨ぐゼロショット多話者合成でSOTAを達成できるか。
RQ2見知らぬ話者および跨言語転送におけるゼロショット音声変換はどの程度推定可能か。
RQ3明示的な話者条件付けとSpeaker Consistency Lossが類似性と自然さに与える影響は。
RQ4非常に短いターゲット話者データで未知の声と録音条件へどれだけ効果的に適応できるか。
RQ5非音素の生テキスト入力アプローチは低資源言語において性能を低下させるか、むしろ改善するか。

主な発見

YourTTSは英語VCTKデータセットでゼロショット型多話者TTSのSOTAを達成。
VCTK上のゼロショット音声変換はSOTAモデルと競合的な結果。
多言語訓練設定により、単一話者データセットでターゲット言語におけるゼロショット合成が可能となり、品質は妥当。
ターゲット話者データが1分未満でのファインチューニングは話者類似度（Sim-MOS/SECS）を言語横断で大幅に改善し、場合によってはSECSの真の類似度を上回ることもある。
Speaker Consistency Lossは一般に類似度（SECS）を改善するが、聞感自然さ（MOS）を低下させる場合もある。訓練時に見られない録音条件へ適応する場合の効果は特に顕著。
跨言語VC（例: pt-en, en-pt）において、女性話者を含まない言語で訓練データを用いると性能が低下することがあり、訓練データの性別バランスの影響を示唆。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。