Skip to main content
QUICK REVIEW

[论文解读] End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures

Gabriel Synnaeve, Qiantong Xu|arXiv (Cornell University)|Nov 19, 2019
Speech Recognition and Synthesis参考文献 54被引用 166
一句话总结

本文研究基于伪标签的半监督训练在端到端ASR中的应用,覆盖ResNet、Time-Depth Separable ConvNets与Transformer声学模型,在使用未标注的LibriVox数据时取得新状态的最优结果,并在大量未标注音频可用时显示出对外部语言模型的依赖降低。

ABSTRACT

We study pseudo-labeling for the semi-supervised training of ResNet, Time-Depth Separable ConvNets, and Transformers for speech recognition, with either CTC or Seq2Seq loss functions. We perform experiments on the standard LibriSpeech dataset, and leverage additional unlabeled data from LibriVox through pseudo-labeling. We show that while Transformer-based acoustic models have superior performance with the supervised dataset alone, semi-supervision improves all models across architectures and loss functions and bridges much of the performance gaps between them. In doing so, we reach a new state-of-the-art for end-to-end acoustic models decoded with an external language model in the standard supervised learning setting, and a new absolute state-of-the-art with semi-supervised training. Finally, we study the effect of leveraging different amounts of unlabeled audio, propose several ways of evaluating the characteristics of unlabeled audio which improve acoustic modeling, and show that acoustic models trained with more audio rely less on external language models.

研究动机与目标

  • 动机与评估端到端ASR在多样化架构下使用CTC和Seq2Seq损失的性能。
  • 评估在有未标注数据可用时,伪标签的半监督学习对模型性能的影响。
  • 描述未标注音频如何影响解码阶段对外部语言模型的依赖。
  • 展示在LibriSpeech上端到端的最先进结果,无论是否使用外部语言模型。
  • 提供不同架构从半监督数据中受益的洞察。

提出的方法

  • 用CTC或Seq2Seq损失训练多种端到端声学模型(ResNet、Time-Depth Separable ConvNets和Transformer)。
  • 以LibriSpeech作为有标签数据、LibriVox作为未标注数据,使用Transformer AM生成伪标签并结合语言模型进行解码。
  • 在LibriSpeech文本上构建并训练语言模型(n-gram、GCNN和Transformer),并通过仔细的数据筛选避免与未标注音频重叠。
  • 使用外部语言模型进行一次性束搜索解码,并可选进行重新打分以获得最终转录。
  • 在LibriSpeech的开发集和测试集上进行评估,报告有/无解码、有/无LM以及伪标签数据下的WER。

实验结果

研究问题

  • RQ1在ASR中,对大规模未标注数据进行伪标签是否能缩小不同端到端架构(ResNet、TDS、Transformer)以及损失函数(CTC、Seq2Seq)之间的性能差距?
  • RQ2增加未标注数据(LibriVox)如何影响不同架构的WER以及对外部语言模型的依赖?
  • RQ3在半监督端到端ASR设置中,解码与LM重新打分的相对贡献是多少?
  • RQ4通过半监督数据训练的端到端模型是否能在LibriSpeech上实现无外部LM的最先进结果,使用LM时结果如何?
  • RQ5伪标签是否会因为用于标注的语言模型是否与未标记语料重叠而产生影响?

主要发现

  • 半监督伪标签在CTC和Seq2Seq损失下提升了所有架构(ResNet、TDS、Transformer)。
  • 在LibriVox未标注数据下,Transformer模型在test-clean上达到2.28%的WER,test-other为4.88%,无需解码或LM;使用LM解码后分别降至2.09%和4.11%。
  • 在仅用LibriSpeech训练后,端到端Transformer模型在test-other上通过解码和重新打分达到5.17%的WER,且不解码时为6.98%。
  • 使用LibriVox伪标签训练的模型在解码阶段对外部LM的依赖更小,体现为在未标注数据充足时LM重新打分带来的增益较小。
  • 仅使用LibriVox伪标签进行训练也可获得有竞争力的结果,例如使用仅在LibriVox标签上训练的Transformer AM时,dev-clean为2.38%,dev-other为5.43%(相较于LibriSpeech基线2.99% / 7.31%)。
  • 增加伪标签音频的数量会稳定提升WER;完整的LibriVox增强设置给出最佳报告结果。)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。