Skip to main content
QUICK REVIEW

[論文レビュー] Guided-TTS 2: A Diffusion Model for High-quality Adaptive Text-to-Speech with Untranscribed Data

Sung‐Won Kim, Heeseung Kim|arXiv (Cornell University)|May 30, 2022
Speech Recognition and Synthesis被引用数 21
ひとこと要約

Guided-TTS 2 は、未転写データで訓練され、短いターゲット話者リファレンスで微調整された拡散ベースの適応型 TTS モデルを導入し、単一話者 TTS の品質と競合し、適応ベースラインを上回り、ゼロショット適応でも優れた性能を示します。

ABSTRACT

We propose Guided-TTS 2, a diffusion-based generative model for high-quality adaptive TTS using untranscribed data. Guided-TTS 2 combines a speaker-conditional diffusion model with a speaker-dependent phoneme classifier for adaptive text-to-speech. We train the speaker-conditional diffusion model on large-scale untranscribed datasets for a classifier-free guidance method and further fine-tune the diffusion model on the reference speech of the target speaker for adaptation, which only takes 40 seconds. We demonstrate that Guided-TTS 2 shows comparable performance to high-quality single-speaker TTS baselines in terms of speech quality and speaker similarity with only a ten-second untranscribed data. We further show that Guided-TTS 2 outperforms adaptive TTS baselines on multi-speaker datasets even with a zero-shot adaptation setting. Guided-TTS 2 can adapt to a wide range of voices only using untranscribed speech, which enables adaptive TTS with the voice of non-human characters such as Gollum in extit{"The Lord of the Rings"}.

研究の動機と目的

  • ターゲット話者データの必要量を最小化し、転写の必要性を排除する適応型 TTS の動機づけ。
  • 大規模な未転写データを活用して、話者条件付き拡散モデルを事前学習する。
  • 参照音声への最小限の微調整によって新しい話者へ迅速に適応できるようにする。
  • ゼロショットおよび少量データでの適応において、競争力のある品質と話者類似性を達成する。

提案手法

  • 多話者の未 unlabeled データ上で話者条件付き DDPM を事前学習し、多様な話者の音声分布をモデル化する。
  • 別個の分類器を用いず話者条件付き生成を可能にする classifier-free ガイダンスを用い、話者埋め込みを組み込む。
  • ターゲット話者の10秒間の未転写リファレンス音声を用いて学習済み拡散モデルを微調整し、モデルを適応させる。
  • 拡散過程に導かれたフレームレベルの音素分類器と長さ予測器を統合し、正確な発音を実現する。
  • サンプリング時に発音と音色を維持するため、テキスト条件付けと話者ガイダンスを組み合わせたノルムベースのガイダンスを適用する。
  • 適応型 TTS の間、逆拡散をターゲット音素列とターゲット話者埋め込みで条件付けし、テキスト勾配スケール γT と話者勾配スケール γS を用いる。

実験結果

リサーチクエスチョン

  • RQ1未転写データで訓練された拡散ベースのモデルは、ラベルなしのリファレンス音声だけを用いて新しい話者へ適応できるか。
  • RQ2classifier-free ガイダンスとノルムベースのガイダンスは、適応型 TTS における発音精度と話者類似性にどう影響するか。
  • RQ3微調整継続時間が適応品質と発音保持へ与える影響は何か。
  • RQ4Guided-TTS 2 はゼロショット設定で、複数話者データセット上の既存の適応型 TTS ベースラインと比べてどう性能を示すか。
  • RQ5実世界の未ラベル音声(例: YouTube クリップ)は、転写なしで適応型 TTS に効果的に使えるか。

主な発見

  • 未転写リファレンス音声10秒を用いた Guided-TTS 2 は、LJSpeech における単一話者 TTS ベースラインと同等の品質と話者類似性を達成する。
  • ゼロショット Guided-TTS 2 は LibriTTS および VCTK における話者類似性で他のゼロショット適応ベースラインより優れる。
  • 微調整は話者類似性を向上させるが、発音精度をわずかに低下させる可能性があり、音色とテキスト忠実性のトレードオフを示している。
  • LibriTTS に Libri-Light データを加えると、LibriTTS のみの場合よりゼロショット性能が向上する。
  • Guided-TTS 2 は YouTube クリップなどの実世界の音声リファレンスへ適応でき、転写なしで高品質な音声を生成する。
  • データセット全体で、Guided-TTS 2 は音声品質と発音指標の点で適応型 TTS ベースライン YourTTS および Meta-StyleSpeech を上回る。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。