[論文レビュー] Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling
VALL-E X は、ソース言語のプロンプトとターゲット言語のテキストからターゲット言語の音声を合成する多言語条件付きニューラルコーデック言語モデルを訓練し、話者の声を保持しつつ外国語アクセントを低減しながら、ゼロショットの跨言語TTSおよびS2STを可能にします。
We propose a cross-lingual neural codec language model, VALL-E X, for cross-lingual speech synthesis. Specifically, we extend VALL-E and train a multi-lingual conditional codec language model to predict the acoustic token sequences of the target language speech by using both the source language speech and the target language text as prompts. VALL-E X inherits strong in-context learning capabilities and can be applied for zero-shot cross-lingual text-to-speech synthesis and zero-shot speech-to-speech translation tasks. Experimental results show that it can generate high-quality speech in the target language via just one speech utterance in the source language as a prompt while preserving the unseen speaker's voice, emotion, and acoustic environment. Moreover, VALL-E X effectively alleviates the foreign accent problems, which can be controlled by a language ID. Audio samples are available at \url{https://aka.ms/vallex}.
研究の動機と目的
- 言語を超えて話者の同一性、感情、環境文脈を保つ跨言語の音声合成を推進する。
- ゼロショットの跨言語生成を可能にするために、大規模な多言語音声-文字起こしデータを活用する。
- 強力なインコンテキスト学習能力を持つ跨言語ニューラルコーデック言語モデルを開発する。
- 話者類似性と品質を向上させたゼロショット跨言語TTSおよびゼロショットS2STを実証する。
提案手法
- 多言語自己回帰コーデックLMと多言語非自己回帰コーデックLMから構成される、跨言語ニューロコーデック言語モデル(VALL-E X)を導入する。
- 音声は EnCodec の離散的音響トークンと、G2P ツールを介して得られる音素列をプロンプトとして表現する。
- MAR を、結合されたソース/ターゲット音素列と第一層トークンから第一層の音響トークンを自回帰的に予測するよう訓練する。
- MNAR を、話者参照と前の層のトークンを条件にして、より高次の層の音響トークンを反復的に予測するよう訓練する。
- 生成時に話者スタイルを指導し、L2アクセントを低減するために言語IDを組み込む。
- 推論時には、ソース音素とターゲットテキストプロンプトからターゲット音響トークンを合成し、次に EnCodec デコーダを用いてデコードする。
実験結果
リサーチクエスチョン
- RQ1跨言語ニューラルコーデック言語モデルは、話者類似性と自然さを高く保ったゼロショット跨言語TTSを実現できるか?
- RQ2未知の話者の声・感情・音響環境を言語を超えて保持できるか?
- RQ3VALL-E X を用いたゼロショットS2STが、競争力の翻訳品質と自然さを実現可能か?
- RQ4言語ID の導入は、跨言語合成における外国訛りの問題を低減するか?
主な発見
- VALL-E X は XTTS における未知の話者に対する前提SOTAより高い話者類似性を達成する。
- 英語XTTSでは中国語プロンプトを用いた場合、ASV-スコアは 0.36±0.11 に改善、基準値の 0.30±0.10 より高く;ASR-WER は 4.07 に低下、 8.53 との比較。
- VALL-E X は XTTS タスクで自然さは、ベースラインの 3.36 より 3.54 の方が良い。
- 中国語TTSを英語プロンプトで行った場合、XTTS SMOS は 4.00±0.20 に改善し、CMOS は ベースラインより +0.24 向上。
- ゼロショットS2ST(中国語↔英語)の場合、本システムはベースラインより ASV の一貫性と翻訳品質(ASR-BLEU)を向上させる;音声サンプルはオンラインで入手可能。
- 本モデルは外国訛りを低減し、言語ID制御の声の転送を可能にし、ターゲット言語で母語話者のような音声を実現します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。