Skip to main content
QUICK REVIEW

[论文解读] Effectiveness of self-supervised pre-training for speech recognition

Alexei Baevski, Michael Auli|arXiv (Cornell University)|Nov 10, 2019
Speech Recognition and Synthesis参考文献 57被引用 100
一句话总结

本文比较了语音自监督预训练方法,结果显示通过 vq-wav2vec 的离散单元学习,随后进行 BERT 微调,在 ASR 准确度方面优于连续表示,尤其在标注数据有限时表现更好。

ABSTRACT

We compare self-supervised representation learning algorithms which either explicitly quantize the audio data or learn representations without quantization. We find the former to be more accurate since it builds a good vocabulary of the data through vq-wav2vec [1] to enable learning of effective representations in subsequent BERT training. Different to previous work, we directly fine-tune the pre-trained BERT models on transcribed speech using a Connectionist Temporal Classification (CTC) loss instead of feeding the representations into a task-specific model. We also propose a BERT-style model learning directly from the continuous audio data and compare pre-training on raw audio to spectral features. Fine-tuning a BERT model on 10 hour of labeled Librispeech data with a vq-wav2vec vocabulary is almost as good as the best known reported system trained on 100 hours of labeled data on testclean, while achieving a 25% WER reduction on test-other. When using only 10 minutes of labeled data, WER is 25.2 on test-other and 16.3 on test-clean. This demonstrates that self-supervision can enable speech recognition systems trained on a near-zero amount of transcribed data.

研究动机与目标

  • 通过自监督表征学习,促进降低 ASR 对标注数据的需求。
  • 比较离散(量化)与连续自监督预训练在语音上的差异。
  • 评估预训练在 Librispeech 上不同标注数据规模(10 分钟到 100 小时)下的影响。
  • 演示在转写语音上直接对 BERT 模型进行 CTC 损失微调。
  • 评估哪种输入表示(vq-wav2vec、MFCC、FBANK、wav2vec)能带来最佳结果。

提出的方法

  • 在 960 小时 Librispeech 未标注数据上使用离散的 vq-wav2vec 进行预训练并学习 13.5k 个编码。
  • 在离散化单元上用掩码语言模型训练 BERT,并使用 CTC 损失进行微调。
  • 与在 wav2vec、MFCC 或 FBANK 特征上训练的连续输入 BERT 变体进行比较,采用对比/InfoNCE 目标。
  • 在 Libri-light 子集上对预训练模型进行微调(10 分钟、10 小时、1 小时、10 小时和 100 小时),并在 LibriSpeech 开发集/测试集上评估。
  • 在微调期间应用类似 SpecAugment 的掩蔽以提高鲁棒性。
  • 在每个数据规模下使用单一随机种子或多种随机种子,并采用余弦学习率调度进行优化。

实验结果

研究问题

  • RQ1自监督预训练是否能降低 ASR 对标注数据的需求?
  • RQ2在以 CTC 微调的下游任务中,离散单元发现(vq-wav2vec)是否比连续表示更有效?
  • RQ3在不同数量的标注数据下,不同输入表示(vq-wav2vec、MFCC、FBANK、wav2vec)如何比较?
  • RQ4两步预训练(wav2vec/离散 BERT)是否优于单步方法在语音识别上的表现?
  • RQ5在 Librispeech 上,预训练对 10 分钟与 100 小时标注数据的性能影响如何?

主要发现

  • 使用 vq-wav2vec 输入的离散 BERT 在所有数据规模下均持续优于连续 BERT。
  • vq-wav2vec 量化在两个测试子集上相对于聚类光谱特征实现约 40% 的相对 WER 降低。
  • 仅有 10 小时标注数据时,带 vq-wav2vec 的离散 BERT在 test-clean 的表现几乎可与最佳 100 小时结果相比,并在 test-other 上实现 25% 相对 WER 降低。
  • 仅 10 分钟标注数据时,离散 BERT 在 test-clean 上的 WER 为 16.3,在 test-other 为 25.2。
  • 在 10 小时标注数据上微调离散 BERT,几乎达到文献中在 100 小时上训练的结果,在 test-clean 上接近,test-other 降低 25% WER。
  • 两步预训练(wav2vec 然后连续 BERT)相较于单步 wav2vec 加微调,在多种情形下带来显著提升,某些情况下 WER 降至一半。
  • 未进行后续 BERT 预训练的离散输入表现较差,凸显了序列建模阶段的必要性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。