[论文解读] Self-supervised Learning with Random-projection Quantizer for Speech Recognition
BEST-RQ 引入一种简单的自监督预训练,它使用一个固定、随机投影量化器来为掩蔽语音建模生成离散目标,在 LibriSpeech 上实现具有竞争力的词错率(WER),并在不学习量化器的情况下改善流式延迟和多语言结果。
We present a simple and effective self-supervised learning approach for speech recognition. The approach learns a model to predict the masked speech signals, in the form of discrete labels generated with a random-projection quantizer. In particular the quantizer projects speech inputs with a randomly initialized matrix, and does a nearest-neighbor lookup in a randomly-initialized codebook. Neither the matrix nor the codebook is updated during self-supervised learning. Since the random-projection quantizer is not trained and is separated from the speech recognition model, the design makes the approach flexible and is compatible with universal speech recognition architecture. On LibriSpeech our approach achieves similar word-error-rates as previous work using self-supervised learning with non-streaming models, and provides lower word-error-rates and latency than wav2vec 2.0 and w2v-BERT with streaming models. On multilingual tasks the approach also provides significant improvement over wav2vec 2.0 and w2v-BERT.
研究动机与目标
- 通过将量化与ASR模型解耦来降低自监督语音学习的复杂性,作为动机。
- 提出一种随机投影量化器,用于为掩蔽语音预测产生离散标签。
- 证明与流式和非流式 ASR 架构的兼容性。
- 表明表征学习对于有效的自监督 ASR 并非严格必要。
提出的方法
- 应用随机投影将语音特征投影到一个固定、随机初始化的码本。
- 对输入的部分区域进行掩蔽,并训练 ASR 编码器以预测被掩蔽区域的离散标签(BERT 风格的预训练)。
- 在整个预训练过程中保持投影矩阵和码本固定(不进行表征学习)。
- 在预训练阶段在 ASR 编码器上使用 softmax 头;微调时不包含该头。
- 在非流式和流式的基于 Conformer 的 ASR 模型以及跨多语言设置上进行评估。
- 将输入规范化为零均值和单位方差,以防止码本崩溃。
实验结果
研究问题
- RQ1固定的、随机初始化的量化器是否能为自监督 ASR 预训练提供有效目标?
- RQ2BEST-RQ 在流式与非流式架构中的表现如何?
- RQ3量化器质量对 ASR 自监督学习性能有何影响?
- RQ4随机投影量化是否能带来与表征学习方法相当的多语言提升?
主要发现
- BEST-RQ 在非流式模型下的 LibriSpeech 结果与以往的自监督方法相当。
- 在 LibriSpeech 上的流式模型中,BEST-RQ 的延迟低于 wav2vec 2.0 和 w2v-BERT。
- 在多语言任务中,BEST-RQ 显著优于 wav2vec 2.0 和 w2v-BERT。
- 量化器质量并不严格预测自监督学习的有效性,尤其是在有大量预训练数据时。
- 将量化器与 ASR 模型分离并避免表征学习,简化了架构设计和训练。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。