QUICK REVIEW

[论文解读] Pushing the Limits of Semi-Supervised Learning for Automatic Speech Recognition

Zhang Yu, James Qin|arXiv (Cornell University)|Oct 20, 2020

Speech Recognition and Synthesis参考文献 53被引用 200

一句话总结

该论文将 wav2vec 2.0 预训练、带噪声学生训练和 SpecAugment 相结合，在 LibriSpeech 上利用 Libri-Light 未标记数据推动最先进的 WER，使用大型 Conformer 模型在 test/test-other 上达到 1.4%/2.6%。

ABSTRACT

We employ a combination of recent developments in semi-supervised learning for automatic speech recognition to obtain state-of-the-art results on LibriSpeech utilizing the unlabeled audio of the Libri-Light dataset. More precisely, we carry out noisy student training with SpecAugment using giant Conformer models pre-trained using wav2vec 2.0 pre-training. By doing so, we are able to achieve word-error-rates (WERs) 1.4%/2.6% on the LibriSpeech test/test-other sets against the current state-of-the-art WERs 1.7%/3.3%.

研究动机与目标

动机：在 ASR 中使用大规模半监督学习，以提升 LibriSpeech 上的性能。
证明将预训练与迭代自训练相结合可获得最先进的 WER。
探索模型规模与预训练如何交互以提升 ASR 性能。

提出的方法

使用基于 Conformer 的序列转导模型，带 LSTM 解码器。
使用 Libri-Light 未标记数据进行 wav2vec 2.0 风格的自监督预训练来预训练编码器（log-mel 输入；掩蔽；对比损失；用线性投影替代量化）。
在多代 NST 循环中应用带自适应 SpecAugment 的 Noisy Student Training，其中在未标记数据上生成的教师标签用于扩充有监督数据。
在 NST 中对预训练检查点进行微调，使用 SpecAugment、LM 融合，以及分批数据混合（1:9 有监督:教师标注）。
尝试 Conformer XL/XXL/XXL+ 大小，研究预训练对比从头训练的影响。
在 LibriSpeech dev、dev-clean/dev-other、test、test-other 上评估，是否进行 LM 融合均评估。

实验结果

研究问题

RQ1将 wav2vec 2.0 预训练与迭代自训练（NST）和 SpecAugment 相结合，是否能将 LibriSpeech 的 WER 推进到超越先前的 SSL 方法？
RQ2提高模型容量如何与预训练和 SSL 交互以提升 ASR 性能？
RQ3数据混合、LM 融合以及 NST 的消融对最终 WER 的影响？
RQ4依赖 Libri-Light 的大量未标记数据是否对提升至关重要，以及结果对预训练输入表示（log-mel 与波形）有多大敏感性？

主要发现

方法	未标注数据（小时）	无 LM 开发集	无 LM 开发集-其他	无 LM 测试集	无 LM 测试集-其他	有 LM 开发集	有 LM 开发集-其他	有 LM 测试集	有 LM 测试集-其他
Gen3 Conformer XXL	60k	1.3	2.7	1.5	2.8	1.3	2.6	1.4	2.7
Gen3 Conformer XXL+	60k	1.3	2.7	1.5	2.7	1.3	2.6	1.4	2.6

采用巨型 Conformer 的 NST+预训练管线在 LibriSpeech 的 dev/test 以及 dev-other/test-other 上达到最先进的 WER（例如 Gen3 Conformer XXL 在不使用 LM 时为 1.3%/2.7%/1.5%/2.8%，在使用 LM 时为 1.3%/2.7%/1.5%/2.7%）。
仅仅增大模型规模并不能保证收益；当应用 SSL 方法（预训练和 NST）时，收益才显现。
Gen3 Conformer XXL 和 XXL+ 达到最佳结果，在 NST 框架下 XXL+ 对比 XXL 进一步带来适度的提升。
使用 log-mel 输入和线性投影块进行预训练（不进行量化）也能获得强劲结果，表明投影头设计可以变化。
消融实验显示，在该设置中，最大化教师生成数据量（相对过滤/平衡）有利于 generation-1 的性能。
将预训练数据和模型规模扩大到 1B 参数可带来持续的提升，与单纯说监督数据扩展不同。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。