QUICK REVIEW
[论文解读] Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition
Zhang Yu, James Qin|arXiv (Cornell University)|Oct 20, 2020
Speech Recognition and Synthesis参考文献 53被引用 200
一句话总结
该论文将 wav2vec 2.0 预训练、带噪声学生训练和 SpecAugment 相结合,在 LibriSpeech 上利用 Libri-Light 未标记数据推动最先进的 WER,使用大型 Conformer 模型在 test/test-other 上达到 1.4%/2.6%。
ABSTRACT
We employ a combination of recent developments in semi-supervised learning for automatic speech recognition to obtain state-of-the-art results on LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More precisely, we carry out noisy student training with SpecAugment using giant Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.
研究动机与目标
- 动机:在 ASR 中使用大规模半监督学习,以提升 LibriSpeech 上的性能。
- 证明将预训练与迭代自训练相结合可获得最先进的 WER。
- 探索模型规模与预训练如何交互以提升 ASR 性能。
提出的方法
- 使用基于 Conformer 的序列转导模型,带 LSTM 解码器。
- 使用 Libri-Light 未标记数据进行 wav2vec 2.0 风格的自监督预训练来预训练编码器(log-mel 输入;掩蔽;对比损失;用线性投影替代量化)。
- 在多代 NST 循环中应用带自适应 SpecAugment 的 Noisy Student Training,其中在未标记数据上生成的教师标签用于扩充有监督数据。
- 在 NST 中对预训练检查点进行微调,使用 SpecAugment、LM 融合,以及分批数据混合(1:9 有监督:教师标注)。
- 尝试 Conformer XL/XXL/XXL+ 大小,研究预训练对比从头训练的影响。
- 在 LibriSpeech dev、dev-clean/dev-other、test、test-other 上评估,是否进行 LM 融合均评估。
实验结果
研究问题
- RQ1将 wav2vec 2.0 预训练与迭代自训练(NST)和 SpecAugment 相结合,是否能将 LibriSpeech 的 WER 推进到超越先前的 SSL 方法?
- RQ2提高模型容量如何与预训练和 SSL 交互以提升 ASR 性能?
- RQ3数据混合、LM 融合以及 NST 的消融对最终 WER 的影响?
- RQ4依赖 Libri-Light 的大量未标记数据是否对提升至关重要,以及结果对预训练输入表示(log-mel 与波形)有多大敏感性?
主要发现
| 方法 | 未标注数据(小时) | 无 LM 开发集 | 无 LM 开发集-其他 | 无 LM 测试集 | 无 LM 测试集-其他 | 有 LM 开发集 | 有 LM 开发集-其他 | 有 LM 测试集 | 有 LM 测试集-其他 |
|---|---|---|---|---|---|---|---|---|---|
| Gen3 Conformer XXL | 60k | 1.3 | 2.7 | 1.5 | 2.8 | 1.3 | 2.6 | 1.4 | 2.7 |
| Gen3 Conformer XXL+ | 60k | 1.3 | 2.7 | 1.5 | 2.7 | 1.3 | 2.6 | 1.4 | 2.6 |
- 采用巨型 Conformer 的 NST+预训练管线在 LibriSpeech 的 dev/test 以及 dev-other/test-other 上达到最先进的 WER(例如 Gen3 Conformer XXL 在不使用 LM 时为 1.3%/2.7%/1.5%/2.8%,在使用 LM 时为 1.3%/2.7%/1.5%/2.7%)。
- 仅仅增大模型规模并不能保证收益;当应用 SSL 方法(预训练和 NST)时,收益才显现。
- Gen3 Conformer XXL 和 XXL+ 达到最佳结果,在 NST 框架下 XXL+ 对比 XXL 进一步带来适度的提升。
- 使用 log-mel 输入和线性投影块进行预训练(不进行量化)也能获得强劲结果,表明投影头设计可以变化。
- 消融实验显示,在该设置中,最大化教师生成数据量(相对过滤/平衡)有利于 generation-1 的性能。
- 将预训练数据和模型规模扩大到 1B 参数可带来持续的提升,与单纯说监督数据扩展不同。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。