[論文レビュー] VALL-E 2: Neural Codec Language Models are Human Parity Zero-Shot Text to Speech Synthesizers
VALL-E 2 は repetition aware sampling と grouped code modeling を導入することで、LibriSpeech と VCTK において human-parity zero-shot TTS を達成するニューラル・コーデック言語モデルを実現する。
This paper introduces VALL-E 2, the latest advancement in neural codec language models that marks a milestone in zero-shot text-to-speech synthesis (TTS), achieving human parity for the first time. Based on its predecessor, VALL-E, the new iteration introduces two significant enhancements: Repetition Aware Sampling refines the original nucleus sampling process by accounting for token repetition in the decoding history. It not only stabilizes the decoding but also circumvents the infinite loop issue. Grouped Code Modeling organizes codec codes into groups to effectively shorten the sequence length, which not only boosts inference speed but also addresses the challenges of long sequence modeling. Our experiments on the LibriSpeech and VCTK datasets show that VALL-E 2 surpasses previous systems in speech robustness, naturalness, and speaker similarity. It is the first of its kind to reach human parity on these benchmarks. Moreover, VALL-E 2 consistently synthesizes high-quality speech, even for sentences that are traditionally challenging due to their complexity or repetitive phrases. The advantages of this work could contribute to valuable endeavors, such as generating speech for individuals with aphasia or people with amyotrophic lateral sclerosis. See https://aka.ms/valle2 for demos of VALL-E 2.
研究の動機と目的
- ターゲット話者データなしで human-parity の声のクローンを達成するためのゼロショット TTS の改善を動機づける。
- 新しいサンプリングとグルーピング戦略による安定で効率的なデコードおよび長いシーケンスのモデリングを提案する。
- コーデック言語モデリングアプローチがベンチマークデータセットで人間の性能に匹敵できることを示す。
- 挑戦的な文や繰り返しのフレーズに対して頑健性を示す。
- トレーニングデータ要件の単純さと潜在的な応用とリスクを強調する。
提案手法
- デコード履歴の繰り返しに基づいてランダムサンプリングと nucleus sampling の間で適応する repetition aware sampling を導入する。
- コーデックコードをグループに分割し、それぞれを1つのフレームとしてモデリングしてシーケンスを短縮する grouped code modeling を提案する。
- コーデックコード生成のために hybrid autoregressive (AR) および non-autoregressive (NAR) Transformer アーキテクチャを採用する。
- Libriheavy data を用い、tokenization に Encodec を、decoding に Vocos を使用して utterance-wise speech-transcription ペアで訓練する。
- テキストとプロンプトコードを与えた条件付き対数尤度を最大化するために AR および NAR コンポーネントの grouped-code 確率目的関数を定式化する。
- 見たことのない話者の音声プロンプトを使ってプロンプトを与えることで zero-shot TTS を適用し、ターゲットコードを生成して音声を合成する。
実験結果
リサーチクエスチョン
- RQ1標準ベンチマークで VALL-E 2 は zero-shot TTS において human-parity を達成できるか?
- RQ2 repetition aware sampling と grouped code modeling はコーデックベースの TTS の安定性・速度・長いシーケンスのモデリングを改善するか?
- RQ3単純な utterance-wise speech-transcription データが高品質な zero-shot TTS モデルの訓練に十分か?
- RQ4システムは in-domain および out-of-domain データセットの両方で話者類似性、自然さ、頑健性を維持するか?
- RQ5難解な文や繰り返しのある文を安定した高品質合成で処理できるか?
主な発見
- VALL-E 2 は LibriSpeech と VCTK で robustness、naturalness、similarity のベンチマークにおいて human-parity を達成する。
- Grouped code modeling はシーケンス長を短縮し推論を高速化するとともに長文脈の問題を緩和する。
- Repetition aware sampling はデコードを安定させ、レイテンシを増やすことなく無限ループを回避する。
- The model attains strong zero-shot TTS performance using only utterance-wise speech-transcription paired data for training.
- VALL-E 2 は複雑な文や繰り返しのフレーズに対して頑健な音声合成を示す。
- Decoding speed can be substantially accelerated with minimal performance loss.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。