QUICK REVIEW

[论文解读] Effectiveness of self-supervised pre-training for speech recognition

Alexei Baevski, Michael Auli|arXiv (Cornell University)|Nov 10, 2019

Speech Recognition and Synthesis参考文献 57被引用 100

一句话总结

本文比较了语音自监督预训练方法，结果显示通过 vq-wav2vec 的离散单元学习，随后进行 BERT 微调，在 ASR 准确度方面优于连续表示，尤其在标注数据有限时表现更好。

ABSTRACT

We compare self-supervised representation learning algorithms which either explicitly quantize the audio data or learn representations without quantization. We find the former to be more accurate since it builds a good vocabulary of the data through vq-wav2vec [1] to enable learning of effective representations in subsequent BERT training. Different to previous work, we directly fine-tune the pre-trained BERT models on transcribed speech using a Connectionist Temporal Classification (CTC) loss instead of feeding the representations into a task-specific model. We also propose a BERT-style model learning directly from the continuous audio data and compare pre-training on raw audio to spectral features. Fine-tuning a BERT model on 10 hour of labeled Librispeech data with a vq-wav2vec vocabulary is almost as good as the best known reported system trained on 100 hours of labeled data on testclean, while achieving a 25% WER reduction on test-other. When using only 10 minutes of labeled data, WER is 25.2 on test-other and 16.3 on test-clean. This demonstrates that self-supervision can enable speech recognition systems trained on a near-zero amount of transcribed data.

研究动机与目标

通过自监督表征学习，促进降低 ASR 对标注数据的需求。
比较离散（量化）与连续自监督预训练在语音上的差异。
评估预训练在 Librispeech 上不同标注数据规模（10 分钟到 100 小时）下的影响。
演示在转写语音上直接对 BERT 模型进行 CTC 损失微调。
评估哪种输入表示（vq-wav2vec、MFCC、FBANK、wav2vec）能带来最佳结果。

提出的方法

在 960 小时 Librispeech 未标注数据上使用离散的 vq-wav2vec 进行预训练并学习 13.5k 个编码。
在离散化单元上用掩码语言模型训练 BERT，并使用 CTC 损失进行微调。
与在 wav2vec、MFCC 或 FBANK 特征上训练的连续输入 BERT 变体进行比较，采用对比/InfoNCE 目标。
在 Libri-light 子集上对预训练模型进行微调（10 分钟、10 小时、1 小时、10 小时和 100 小时），并在 LibriSpeech 开发集/测试集上评估。
在微调期间应用类似 SpecAugment 的掩蔽以提高鲁棒性。
在每个数据规模下使用单一随机种子或多种随机种子，并采用余弦学习率调度进行优化。

实验结果

研究问题

RQ1自监督预训练是否能降低 ASR 对标注数据的需求？
RQ2在以 CTC 微调的下游任务中，离散单元发现（vq-wav2vec）是否比连续表示更有效？
RQ3在不同数量的标注数据下，不同输入表示（vq-wav2vec、MFCC、FBANK、wav2vec）如何比较？
RQ4两步预训练（wav2vec/离散 BERT）是否优于单步方法在语音识别上的表现？
RQ5在 Librispeech 上，预训练对 10 分钟与 100 小时标注数据的性能影响如何？

主要发现

使用 vq-wav2vec 输入的离散 BERT 在所有数据规模下均持续优于连续 BERT。
vq-wav2vec 量化在两个测试子集上相对于聚类光谱特征实现约 40% 的相对 WER 降低。
仅有 10 小时标注数据时，带 vq-wav2vec 的离散 BERT在 test-clean 的表现几乎可与最佳 100 小时结果相比，并在 test-other 上实现 25% 相对 WER 降低。
仅 10 分钟标注数据时，离散 BERT 在 test-clean 上的 WER 为 16.3，在 test-other 为 25.2。
在 10 小时标注数据上微调离散 BERT，几乎达到文献中在 100 小时上训练的结果，在 test-clean 上接近，test-other 降低 25% WER。
两步预训练（wav2vec 然后连续 BERT）相较于单步 wav2vec 加微调，在多种情形下带来显著提升，某些情况下 WER 降至一半。
未进行后续 BERT 预训练的离散输入表现较差，凸显了序列建模阶段的必要性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。