QUICK REVIEW

[论文解读] Improving Transformer-based Speech Recognition Using Unsupervised Pre-training

Dongwei Jiang, Xiaoning Lei|arXiv (Cornell University)|Oct 22, 2019

Speech Recognition and Synthesis参考文献 30被引用 103

一句话总结

本文提出 Masked Predictive Coding (MPC)，用于 Transformer 基于 ASR 模型的无监督预训练，在 HKUST 和 AISHELL-1 上在不同预训练数据规模和说话风格下实现了显著的 CER 降幅。

ABSTRACT

Speech recognition technologies are gaining enormous popularity in various industrial applications. However, building a good speech recognition system usually requires large amounts of transcribed data, which is expensive to collect. To tackle this problem, an unsupervised pre-training method called Masked Predictive Coding is proposed, which can be applied for unsupervised pre-training with Transformer based model. Experiments on HKUST show that using the same training data, we can achieve CER 23.3%, exceeding the best end-to-end model by over 0.2% absolute CER. With more pre-training data, we can further reduce the CER to 21.0%, or a 11.8% relative CER reduction over baseline.

研究动机与目标

通过利用大量未标签的音频数据，推动减少对 ASR 大规模标注数据的依赖。
提出一个与 Transformer 兼容的无监督预训练目标，灵感来自 BERT 的 MLM。
证明 MPC 能在不同预训练数据规模和说话风格下提升 Mandarin 语料库的下游 ASR 性能。
评估预训练数据规模和说话风格对微调表现的影响。

提出的方法

将 Masked Predictive Coding 应用于编码器，采用基于 Transformer 的 ASR 设置。
对输入帧进行 15% 的掩蔽，并使用 L1 损失重建编码器输出，掩蔽帧的替换方案为 80/10/10。
在预训练阶段将输入特征下采样至 8x 降采样和 8kHz 数据，微调阶段也应用下采样。
在预训练完成后，移除 MPC 专用组件，并添加 Transformer 解码器进行有监督微调。
尝试使用 HKUST 和 AISHELL-1，以及 Open Mandarin 和内部数据集（Didi Callcenter、Didi Dictation）来研究数据规模和说话风格的影响。
与 APC 和有监督适配器进行对比，以将无监督预训练带来的增益放在背景中。

实验结果

研究问题

RQ1在标注数据有限时，MPC 预训练是否能提升基于 Transformer 的 ASR 性能？
RQ2预训练数据的规模和说话风格如何影响微调后的下游 CER？
RQ3在性能和数据需求方面，MPC 与 APC 及有监督自适应相比有何差异？

主要发现

在 Open Mandarin（~1500 小时）上进行预训练的 MPC 能将 HKUST CER 降至 22.9–23.3%，AISHELL-1 CER 降至 7.8–8.1%，在多种设置中优于强基线。
大约 1500 小时的 Open Mandarin 数据下，HKUST CER 从 23.5% 降至 23.3%，并且随着更多预训练数据的增加出现进一步改进。
使用 5000 小时的 Didi Callcenter 进行预训练时，8kHz 下采样数据的 HKUST CER 为 21.0%，AISHELL-1 CER 为 7.7–7.8%，表明与说话风格匹配和更大数据量具有强大收益。
使用 10000 小时的 Didi Dictation 或 Didi Callcenter 进行预训练，相对于基线可将 HKUST 的 AISHELL-1 CER 降低到显著的幅度（相对 HKUST 约 ~11.8%，AISHELL-1 约 ~22.1%）
无监督 MPC 方法可以接近有监督自适应的性能，但当有转写数据可用时，有监督自适应仍然更强。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。