QUICK REVIEW

[论文解读] Spirit LM: Interleaved Spoken and Written Language Model

Tu Anh Nguyen, Benjamin Müller|arXiv (Cornell University)|Feb 8, 2024

Speech Recognition and Synthesis被引用 3

一句话总结

SPIRIT LM 是一个参数量为 7B 的基础模型，通过交错训练文本和语音标记，实现语音与文本的跨模态生成。通过在混合文本流（BPE）和语音流（HuBERT、基频和风格单元）上对 LLaMA 2 进行连续预训练，该模型在少样本学习设置下，在自动语音识别（ASR）、文本到语音（TTS）和语音分类任务中均表现出强大性能，同时在模态间保持情感一致性——使其成为首个在文本和语音生成中均实现跨模态情感保持的模型。

ABSTRACT

We introduce Spirit LM, a foundation multimodal language model that freely mixes text and speech. Our model is based on a 7B pretrained text language model that we extend to the speech modality by continuously training it on text and speech units. Speech and text sequences are concatenated as a single stream of tokens, and trained with a word-level interleaving method using a small automatically-curated speech-text parallel corpus. Spirit LM comes in two versions: a Base version that uses speech phonetic units (HuBERT) and an Expressive version that models expressivity using pitch and style units in addition to the phonetic units. For both versions, the text is encoded with subword BPE tokens. The resulting model displays both the semantic abilities of text models and the expressive abilities of speech models. Additionally, we demonstrate that Spirit LM can learn new tasks in a few-shot fashion across modalities (i.e. ASR, TTS, Speech Classification). We make available model weights and inference code.

研究动机与目标

开发一种统一的语言模型，通过在训练过程中交错模态，实现语音与文本的生成。
扩展仅处理文本的大语言模型，加入具有表现力的语音能力（包括基频和风格），以提升情感与语调的保真度。
评估在模态间（包括 ASR、TTS 和语音分类）的少样本泛化能力。
引入一个新基准 STSP，用于衡量语音与文本模态间的情感保持程度。
评估并量化生成内容中新增的毒性，特别是在敏感的人口统计轴上。

提出的方法

通过在混合文本与语音标记流上进行连续预训练，训练一个 7B 参数的 LLaMA 2 基础模型。
使用 HuBERT 编码语音以获取音素单元，并在 EXPRESSIVE 版本中添加基频（F0）和风格标记以实现表现力建模。
使用特殊模态标记 [TEXT] 和 [SPEECH] 交错编码的文本（BPE 编码）与语音标记，模态切换在对齐的语音-文本数据中以词边界为触发点。
对连续的语音标记进行去重，以减少冗余并提高训练效率。
在完整的交错序列上使用下一项标记预测损失，联合优化两种模态。
通过在文本到语音、语音到文本以及跨模态分类任务中使用上下文学习提示，评估少样本能力。

实验结果

研究问题

RQ1单一语言模型是否能通过交错预训练实现语音与文本的流畅生成？
RQ2基于文本的大语言模型在跨模态生成（如文本到语音、语音到文本）时，能在多大程度上保持情感一致性？
RQ3引入基频和风格标记对表现力语音生成及情感保持有何影响？
RQ4生成内容中新增的毒性水平如何？其在不同人口统计轴上是否存在差异？
RQ5SPIRIT LM 是否能在少样本设置下泛化至下游任务（如 ASR、TTS 和语音分类）？

主要发现

SPIRIT LM BASE 在 ASR、TTS 和语音分类任务的少样本学习中表现出具有竞争力的性能，证明了其跨模态泛化能力。
SPIRIT LM EXPRESSIVE 版本在模态间的情感保持方面显著优于基线模型，尤其在语音到文本和文本到语音生成中表现突出。
在 STSP 基准测试中，SPIRIT LM 在所有方向上均取得最高情感保持得分，其中 S→T 方向得分最低，但仍优于基线模型。
在毒性评估中，SPIRIT LM BASE 的 ETOX 得分与级联式 ASR+LLM+TTS 流程相当，但在 S→S 生成中 MUTOX 得分更高，表明语音生成中新增毒性增加。
在性别、性别和性取向等轴向上，生成内容的新增毒性更高，而能力与国籍轴上的毒性水平较低，且模态间无显著差异。
与原始 LLaMA 2 相比，该模型在文本生成方面存在性能差距，表明联合文本-语音预训练仍有优化空间。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。