Skip to main content
QUICK REVIEW

[论文解读] Improving Transformer-based Speech Recognition Using Unsupervised Pre-training

Dongwei Jiang, Xiaoning Lei|arXiv (Cornell University)|Oct 22, 2019
Speech Recognition and Synthesis参考文献 30被引用 103
一句话总结

本文提出 Masked Predictive Coding (MPC),用于 Transformer 基于 ASR 模型的无监督预训练,在 HKUST 和 AISHELL-1 上在不同预训练数据规模和说话风格下实现了显著的 CER 降幅。

ABSTRACT

Speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, an unsupervised pre-training method called Masked Predictive Coding is proposed, which can be applied for unsupervised pre-training with Transformer based model. Experiments on HKUST show that using the same training data, we can achieve CER 23.3%, exceeding the best end-to-end model by over 0.2% absolute CER. With more pre-training data, we can further reduce the CER to 21.0%, or a 11.8% relative CER reduction over baseline.

研究动机与目标

  • 通过利用大量未标签的音频数据,推动减少对 ASR 大规模标注数据的依赖。
  • 提出一个与 Transformer 兼容的无监督预训练目标,灵感来自 BERT 的 MLM。
  • 证明 MPC 能在不同预训练数据规模和说话风格下提升 Mandarin 语料库的下游 ASR 性能。
  • 评估预训练数据规模和说话风格对微调表现的影响。

提出的方法

  • 将 Masked Predictive Coding 应用于编码器,采用基于 Transformer 的 ASR 设置。
  • 对输入帧进行 15% 的掩蔽,并使用 L1 损失重建编码器输出,掩蔽帧的替换方案为 80/10/10。
  • 在预训练阶段将输入特征下采样至 8x 降采样和 8kHz 数据,微调阶段也应用下采样。
  • 在预训练完成后,移除 MPC 专用组件,并添加 Transformer 解码器进行有监督微调。
  • 尝试使用 HKUST 和 AISHELL-1,以及 Open Mandarin 和内部数据集(Didi Callcenter、Didi Dictation)来研究数据规模和说话风格的影响。
  • 与 APC 和有监督适配器进行对比,以将无监督预训练带来的增益放在背景中。

实验结果

研究问题

  • RQ1在标注数据有限时,MPC 预训练是否能提升基于 Transformer 的 ASR 性能?
  • RQ2预训练数据的规模和说话风格如何影响微调后的下游 CER?
  • RQ3在性能和数据需求方面,MPC 与 APC 及有监督自适应相比有何差异?

主要发现

  • 在 Open Mandarin(~1500 小时)上进行预训练的 MPC 能将 HKUST CER 降至 22.9–23.3%,AISHELL-1 CER 降至 7.8–8.1%,在多种设置中优于强基线。
  • 大约 1500 小时的 Open Mandarin 数据下,HKUST CER 从 23.5% 降至 23.3%,并且随着更多预训练数据的增加出现进一步改进。
  • 使用 5000 小时的 Didi Callcenter 进行预训练时,8kHz 下采样数据的 HKUST CER 为 21.0%,AISHELL-1 CER 为 7.7–7.8%,表明与说话风格匹配和更大数据量具有强大收益。
  • 使用 10000 小时的 Didi Dictation 或 Didi Callcenter 进行预训练,相对于基线可将 HKUST 的 AISHELL-1 CER 降低到显著的幅度(相对 HKUST 约 ~11.8%,AISHELL-1 约 ~22.1%)
  • 无监督 MPC 方法可以接近有监督自适应的性能,但当有转写数据可用时,有监督自适应仍然更强。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。