QUICK REVIEW

[论文解读] Improving Generalization of Transformer for Speech Recognition with Parallel Schedule Sampling and Relative Positional Embedding

Pan Zhou, Ruchao Fan|arXiv (Cornell University)|Nov 1, 2019

Speech Recognition and Synthesis参考文献 29被引用 23

一句话总结

本文提出并行调度采样（PSS）与相对位置嵌入（RPE），以提升端到端语音识别中Transformer模型的泛化能力。PSS在训练过程中实现高效、并行的调度采样，以减少暴露偏差；RPE则通过建模局部相对序列位置，缓解长序列中的注意力混淆问题。二者结合在10,000小时普通话语音识别任务中，使短语音的词错误率（CER）相对降低7%，长语音的CER相对提升70%。

ABSTRACT

Transformer has shown promising results in many sequence to sequence transformation tasks recently. It utilizes a number of feed-forward self-attention layers to replace the recurrent neural networks (RNN) in attention-based encoder decoder (AED) architecture. Self-attention layer learns temporal dependence by incorporating sinusoidal positional embedding of tokens in a sequence for parallel computing. Quicker iteration speed in training than sequential operation of RNN can be obtained. Deeper layers of the transformer also make it perform better than RNN-based AED. However, this parallelization ability is lost when applying scheduled sampling training. Self-attention with sinusoidal positional embedding may cause performance degradations for longer sequences that have similar acoustic or semantic information at different positions as well. To address these problems, we propose to use parallel scheduled sampling (PSS) and relative positional embedding (RPE) to help the transformer generalize to unseen data. Our proposed methods achieve a 7% relative improvement for short utterances and a 70% relative gain for long utterances on a 10,000-hour Mandarin ASR task.

研究动机与目标

为解决基于Transformer的端到端语音识别中，特别是在长序列和未见长度语音上的泛化差距问题。
克服非自回归、并行解码Transformer中调度采样的低效问题。
减少因长序列中相似语音或语义内容导致的注意力混淆与删除错误（尾部删除与内部删除）。
通过建模相对的、局部的位置关系，提升模型在超过训练序列长度之外的泛化能力。
将PSS与RPE结合，实现短语音与长语音测试集上鲁棒性与准确率的协同提升。

提出的方法

提出并行调度采样（PSS），在训练过程中以推理时的混合率混合真实标签与模型生成输出，以模拟真实解码动态。
使用混合模型（基于Kaldi）或Transformer本身生成候选输出，用于在解码器输入注入时与真实标签混合。
引入相对位置嵌入（RPE）以替代或补充绝对位置嵌入，使模型能够学习局部上下文窗口内的相对位置关系。
在编码器与解码器的多头注意力层中应用RPE，将注意力限制在固定相对范围（例如，k=10）内，以提升定位精度并减少混淆。
采用可学习的基于token ID的位置嵌入作为基线，与正弦绝对位置嵌入（APE）对比，表明其在泛化到未见位置时存在局限性。
在联合训练设置中结合PSS与RPE，通过训练过程中的迭代解码，使模型更贴近推理行为。

实验结果

研究问题

RQ1能否在不牺牲训练速度或引入序列瓶颈的前提下，高效地将调度采样应用于并行解码的Transformer模型？
RQ2相对位置嵌入是否能提升Transformer在语音识别中对长序列、未见长度语音的泛化能力？
RQ3PSS与RPE在多大程度上减少了长语音语音识别中的尾部删除与内部删除？
RQ4在长序列中处理相似语音或语义片段时，RPE相较于绝对位置嵌入表现如何？
RQ5PSS与RPE的联合效应在短语音与长语音分布上的模型泛化能力方面表现如何？

主要发现

所提出的PSS方法在短语音上的词错误率（CER）相比教师强制训练相对降低7.2%（从8.88%降至8.24%）。
PSS与RPE联合使用使长语音的CER从42.41%降至12.73%，实现70%的相对改进。
仅使用RPE时，当在编码器中设置k=10，长语音CER从基线的42.41%降至29.87%；若编码器与解码器均使用RPE，则CER进一步降至12.73%。
RPE显著减少了尾部删除与内部删除，误差分析与示例解码对比结果均证实了这一点。
RPE缓解了注意力解码中的自循环问题，定性分析显示错误重复被成功纠正。
表现最佳的模型（E8+E3）在短语音上的CER为8.9%，在长语音上的CER为12.89%，展现出跨序列长度的优异泛化能力。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。