QUICK REVIEW

[论文解读] Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling

Ziqiang Zhang, Long Zhou|arXiv (Cornell University)|Mar 7, 2023

Speech Recognition and Synthesis被引用 25

一句话总结

VALL-E X 训练一个多语言条件神经编解码器语言模型，以从源语言提示和目标语言文本合成目标语言语音，实现零样本跨语言 TTS 和 S2ST，同时保留说话人声音并降低外国口音。

ABSTRACT

We propose a cross-lingual neural codec language model, VALL-E X, for cross-lingual speech synthesis. Specifically, we extend VALL-E and train a multi-lingual conditional codec language model to predict the acoustic token sequences of the target language speech by using both the source language speech and the target language text as prompts. VALL-E X inherits strong in-context learning capabilities and can be applied for zero-shot cross-lingual text-to-speech synthesis and zero-shot speech-to-speech translation tasks. Experimental results show that it can generate high-quality speech in the target language via just one speech utterance in the source language as a prompt while preserving the unseen speaker's voice, emotion, and acoustic environment. Moreover, VALL-E X effectively alleviates the foreign accent problems, which can be controlled by a language ID. Audio samples are available at \url{https://aka.ms/vallex}.

研究动机与目标

推动跨语言语音合成，在不同语言之间保持说话人身份、情感和环境背景。
利用大规模多语言语音转写数据实现零样本跨语言生成。
开发具有强大上下文学习能力的跨语言神经编解码器语言模型。
展示零样本跨语言 TTS 和零样本 S2ST，并提升说话人相似度与质量。

提出的方法

引入一个跨语言神经编解码器语言模型（VALL-E X），由多语言自回归编解码器 LM 和多语言非自回归编解码器 LM 组成。
用 EnCodec 的离散声学符号表示语音，并通过 G2P 工具将音位序列表示为提示。
训练 MAR 以从拼接的源/目标音位序列和第一层符号中自回归地预测第一层声学符号。
训练 MNAR 以在给定说话人参考和上一层符号的条件下迭代地预测更高层的声学符号。
引入语言ID来引导说话风格并在生成时减少 L2 口音。
在推理阶段，从源音位和目标文本提示合成目标声学符号，然后通过 EnCodec 解码器解码。

实验结果

研究问题

RQ1一个跨语言神经编解码器语言模型是否能够以高说话人相似度和自然度实现零样本跨语言 TTS？
RQ2模型是否能够在跨语言中保留看不见的说话人声音、情感和声学环境？
RQ3使用 VALL-E X 实现零样本 S2ST 是否在翻译质量和自然度方面具有竞争力？
RQ4引入语言ID是否降低跨语言合成中的外国口音问题？

主要发现

VALL-E X 在未见说话人的 XTTS 中实现了比前一代方法更高的说话人相似度。
在带有中文提示的英文 XTTS 中，ASV-Score 提高到 0.36±0.11，相比基线的 0.30±0.10；ASR-WER 降至 4.07，相比 8.53。
VALL-E X 在 XTTS 任务中具有比基线更好的自然度（3.54 对比 3.36）。
在中文 TTS、英文提示下，XTTS SMOS 提高到 4.00±0.20，CMOS 相对基线提升 +0.24。
对于零样本 S2ST（中/英），系统在 ASV 一致性和翻译质量（ASR-BLEU）方面优于基线；音频示例可在线获取。
该模型减少外语口音并实现语言 ID 控制的声音迁移，使目标语言中的语音更接近本地声音。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。