[论文解读] SLAM: A Unified Encoder for Speech and Language Modeling via Speech-Text Joint Pre-Training
SLAM 通过自监督和对齐损失,训练单个编码器在语音和文本上进行联合预训练,旨在提升语音翻译,同时考察跨模态干扰和容量极限。
Unsupervised pre-training is now the predominant approach for both text and speech understanding. Self-attention models pre-trained on large amounts of unannotated data have been hugely successful when fine-tuned on downstream tasks from a variety of domains and languages. This paper takes the universality of unsupervised language pre-training one step further, by unifying speech and text pre-training within a single model. We build a single encoder with the BERT objective on unlabeled text together with the w2v-BERT objective on unlabeled speech. To further align our model representations across modalities, we leverage alignment losses, specifically Translation Language Modeling (TLM) and Speech Text Matching (STM) that make use of supervised speech-text recognition data. We demonstrate that incorporating both speech and text data during pre-training can significantly improve downstream quality on CoVoST~2 speech translation, by around 1 BLEU compared to single-modality pre-trained models, while retaining close to SotA performance on LibriSpeech and SpeechStew ASR tasks. On four GLUE tasks and text-normalization, we observe evidence of capacity limitations and interference between the two modalities, leading to degraded performance compared to an equivalent text-only model, while still being competitive with BERT. Through extensive empirical analysis we also demonstrate the importance of the choice of objective function for speech pre-training, and the beneficial effect of adding additional supervised signals on the quality of the learned representations.
研究动机与目标
- 为跨模态(语音与文本)实现通用的自监督预训练提供动机。
- 研究单个编码器是否能够为两种模态学习出强表征。
- 评估对齐损失(TLM 和 STM)对跨模态迁移和下游任务的影响。
- 在 jointly modeling 两种高资源模态时,描述干扰与容量极限。
- 为多模态预训练提供设计指南和经验见解。
提出的方法
- 提出一个基于 Conformer 的单一体系结构,包含一个语音编码器、一个文本编码器,以及一个共享的多模态编码器。
- 以四个目标进行预训练:SpanBERT(文本 MLM)、w2v-BERT(语音)、翻译语言建模(TLM,来自成对数据)、语音-文本匹配(STM,来自成对/非成对数据)。
- 采用多阶段预训练:先在非成对数据上进行自监督,然后在包含非成对和成对数据的情形下加入对齐损失。
- 对成对数据使用强烈掩蔽,以鼓励跨模态特征学习。
- 对下游任务进行微调,包括语音翻译(CoVoST 2)、ASR(LibriSpeech、SpeechStew)和 GLUE 任务;分析容量和干扰。
实验结果
研究问题
- RQ1单个编码器在联合预训练后,是否能够为语音和文本学习出有效表征?
- RQ2对齐损失(TLM 和 STM)是否相较于单纯自监督学习,提升跨模态对齐和下游表现?
- RQ3多模态预训练对语音翻译、ASR 和文本理解任务的利与弊(干扰、容量)是什么?
主要发现
- 联合的 SLAM 预训练在 CoVoST 2 语音翻译上相对于单模态预训练具有约 1 BLEU 的提升。
- SLAM 在 LibriSpeech ASR 和 SpeechStew ASR 任务上,与最先进的单模态模型相比,达到具有竞争力的性能。
- 在 GLUE 任务和文本归一化方面,跨模态干扰导致相对于仅文本模型的性能下降,揭示在建模两种高资源模态时的容量极限。
- 对齐损失(TLM 和 STM)提升了跨模态表征对齐,可以弥合因干扰造成的大部分性能差距。
- 在联合多模态预训练后继续在语音数据上进行继续预训练,可为语音翻译带来额外提升,显示跨模态迁移的好处。
- 文本仅表现保持与早期 BERT 级基线竞争,突显统一模型的容量约束。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。