[论文解读] Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale
Voicebox 是一个非自回归的流匹配模型,通过上下文学习实现文本引导的多语言大规模语音生成,在零样本 TTS 方面达到最新水平,并在比以往方法更快的速度完成灵活填充任务。
Large-scale generative models such as GPT and DALL-E have revolutionized the research community. These models not only generate high fidelity outputs, but are also generalists which can solve tasks not explicitly taught. In contrast, speech generative models are still primitive in terms of scale and task generalization. In this paper, we present Voicebox, the most versatile text-guided generative model for speech at scale. Voicebox is a non-autoregressive flow-matching model trained to infill speech, given audio context and text, trained on over 50K hours of speech that are not filtered or enhanced. Similar to GPT, Voicebox can perform many different tasks through in-context learning, but is more flexible as it can also condition on future context. Voicebox can be used for mono or cross-lingual zero-shot text-to-speech synthesis, noise removal, content editing, style conversion, and diverse sample generation. In particular, Voicebox outperforms the state-of-the-art zero-shot TTS model VALL-E on both intelligibility (5.9% vs 1.9% word error rates) and audio similarity (0.580 vs 0.681) while being up to 20 times faster. Audio samples can be found in \url{https://voicebox.metademolab.com}.
研究动机与目标
- 需要可扩展的、通用的语音生成模型来处理多样任务,而无需显式微调。
- 提出一个以文本为引导的语音填充框架,该框架在大规模、真实数据集上训练以实现任务泛化。
- 开发一个非自回归的基于流的模型(CNF),通过流匹配和最优传输路径实现高效推理。
- 将时长与音频建模解耦,以实现细粒度对齐控制和灵活推理。
- 展示 Voicebox 在单语言和多语言的零样本 TTS、去噪、编辑以及多样采样方面达到 SOTA,同时实现更快的生成速度。
提出的方法
- 模型:为文本引导的语音填充而构建的非自回归连续正则化流(CNF)。
- 训练:通过带有最优传输(OT)路径的流匹配目标来学习 p_t(x) 的条件路径。
- 条件化:音频上下文 x_ctx 和逐帧转录 z(含时长 l)驱动 q(x_mis | z, x_ctx)。
- 架构:基于 Transformer 的向量场 v_t,在 (x_t, x_ctx, z) 上参数化,包含音素嵌入;单独的时长模型用于 l。
- 推理:解一个初始为 x_0 的 ODE,NFE 控制速度/质量;可选的无分类器引导(CFG)在多样性与保真度之间权衡。
- 评估指标:使用 HuBERT-L 或 Whisper 的 WER,基于嵌入相似性的连贯性(SIM-o 与 SIM-r),以及用 wav2vec 特征的 Fréchet-like FSD;再加上基于 MOS 的主观评分。
实验结果
研究问题
- RQ1能否训练一个单一的文本条件模型,通过就地学习在不进行显式微调的情况下执行多种语音生成任务?
- RQ2相较于现有 SOTA 模型,采用流匹配和 OT 路径的非自回归 CNF 在单语言和多语言的零样本 TTS、去噪、编辑与多样采样方面的表现如何?
- RQ3文本引导的填充是否能够在不使用风格标签或预训练嵌入的情况下,实现跨语言的高质量零样本 TTS?
- RQ4将时长与音频建模解耦是否提升对齐控制与推理效率?
- RQ5哪些评估指标能最好地反映多样语音生成任务中的感知质量与可懂度?
主要发现
- Voicebox 在英语零样本 TTS 上达到 SOTA,WER 从 5.9% 降至 1.9%,音频相似性从 0.580 提升到 0.681。
- Voicebox 能在六种语言中实现高质量的跨语言零样本 TTS,而无需使用风格标签或多语言提示。
- 在语音去噪与内容编辑方面,Voicebox 的表现优于先前的 SOTA,WER 下降 -8.8%,相似性提升 +0.450,MOS 提升 +0.80。
- 该模型支持任意长度的填充语音,且相较自回归方法实现更快的生成(在 10 次 NFE 以下)。
- 由 Voicebox 生成的合成语音可用于训练 ASR,在 Librispeech 测试集上的 WER 损失可以忽略(绝对增减0.4%/1.7%),与真实数据相比,优于以往的 TTS 模型。
- Voicebox 通过就地学习行为提供多样且真实的语音采样,以及内容/风格编辑能力。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。