Skip to main content
QUICK REVIEW

[论文解读] Textually Pretrained Speech Language Models

Michael Hassid, Tal Remez|arXiv (Cornell University)|May 22, 2023
Topic Modeling被引用 7
一句话总结

TWIST 从预训练文本LM初始化 SpeechLM,并在自动与人工评估中持续提升性能,扩展到有史以来最大的 SpeechLM。

ABSTRACT

Speech language models (SpeechLMs) process and generate acoustic data only, without textual supervision. In this work, we propose TWIST, a method for training SpeechLMs using a warm-start from a pretrained textual language models. We show using both automatic and human evaluations that TWIST outperforms a cold-start SpeechLM across the board. We empirically analyze the effect of different model design choices such as the speech tokenizer, the pretrained textual model, and the dataset size. We find that model and dataset scale both play an important role in constructing better-performing SpeechLMs. Based on our observations, we present the largest (to the best of our knowledge) SpeechLM both in terms of number of parameters and training data. We additionally introduce two spoken versions of the StoryCloze textual benchmark to further improve model evaluation and advance future research in the field. We make speech samples, code and models publicly available: https://pages.cs.huji.ac.il/adiyoss-lab/twist/ .

研究动机与目标

  • 激励并探究文本预训练如何在传统冷启动方法之外提升 SpeechLM的性能。
  • 系统性分析设计选择,如语音标记器、预训练文本模型和训练数据规模。
  • 展示扩展对 SpeechLM 性能的影响,并介绍迄今为止容量最大的 SpeechLM。
  • 提供新的口语基准测试(Spoken StoryCloze),以评估口语中的上下文与连贯性。

提出的方法

  • 引入 TWIST,该方法用语音词汇替换文本词汇表,并从预训练文本LM初始化 SpeechLM。
  • 使用基于 HuBERT 的语音标记化与 k-means 量化,生成 SpeechLM 的离散语音标记。
  • 训练一个标记到语音的声码器(HiFi-GAN)以从标记重合成语音,使 SpeechLM 的端到端评估成为可能。
  • 用 sWUGGY 与 sBLIMP 进行零样本词汇/句法建模评估,并通过 MMOS 评估人工评估。
  • 在模型规模(1.3B、7B、13B)和数据规模(1%、10%、100%)上比较 TWIST 与 Cold-Init。
  • 引入 Spoken StoryCloze 基准(sStoryCloze 与 tStoryCloze),用于评估口语内容中的细粒度与粗粒度连贯性。
Figure 1 : Generative Spoken Language Modeling: the pipeline is composed of three main components (i) Speech tokenizer; (ii) SpeechLM; and (iii) Token-to-speech. This paper introduces TWIST ,which initializes the weights of the SpeechLM from a pretrained text LM.
Figure 1 : Generative Spoken Language Modeling: the pipeline is composed of three main components (i) Speech tokenizer; (ii) SpeechLM; and (iii) Token-to-speech. This paper introduces TWIST ,which initializes the weights of the SpeechLM from a pretrained text LM.

实验结果

研究问题

  • RQ1文本语言模型是否可以通过 TWIST 为 SpeechLM 提供有益的初始化?
  • RQ2语音标记器选择、文本LM选择以及训练数据规模如何影响 SpeechLM 的性能?
  • RQ3将 SpeechLM 扩展到 7B/13B 参数对自动、人工与口语基准评估有何影响?
  • RQ4像 sStoryCloze 与 tStoryCloze 这样的口语基准是否揭示 SpeechLM 相对于文本基准的优劣与差距?

主要发现

  • TWIST 在 PPL、sWUGGY 和 sBLIMP 指标上始终优于 Cold-Init。
  • 使用更大尺度的下采样(如 500 个标记,25Hz)可提升 sWUGGY 与 sBLIMP 的结果。
  • 扩展模型规模和数据规模可提升性能;在 TWIST 下,使用 10% 数据即可达到或超过 Cold-Init 使用 100% 数据的效果。
  • TWIST 收敛更快,在约四分之一的更新步数内达到目标困惑度。
  • TWIST-7B/13B 相比 TWIST-1.3B 进一步带来收益,TWIST-13B 在 sWUGGY(全量与在词汇表内)与 sBLIMP 上超越以往方法。
  • Spoken StoryCloze 结果显示续写连贯性优于细粒度时间常识,但 tStoryCloze 人类性能约差15%,sStoryCloze 差距更大。
(a)
(a)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。