QUICK REVIEW

[论文解读] Transformers with convolutional context for ASR

Abdelrahman Mohamed, Dmytro Okhonko|arXiv (Cornell University)|Apr 26, 2019

Natural Language Processing Techniques参考文献 25被引用 152

一句话总结

论文在 ASR 的 Transformer 中用卷积学习的输入表示取代了正弦位置嵌入，使训练更稳定，在 Librispeech 上的等效错误率（WER）在没有外部语言模型的情况下有所提升。

ABSTRACT

The recent success of transformer networks for neural machine translation and other NLP tasks has led to a surge in research work trying to apply it for speech recognition. Recent efforts studied key research questions around ways of combining positional embedding with speech features, and stability of optimization for large scale learning of transformer networks. In this paper, we propose replacing the sinusoidal positional embedding for transformers with convolutionally learned input representations. These contextual representations provide subsequent transformer blocks with relative positional information needed for discovering long-range relationships between local concepts. The proposed system has favorable optimization characteristics where our reported results are produced with fixed learning rate of 1.0 and no warmup steps. The proposed model achieves a competitive 4.7% and 12.9% WER on the Librispeech ``test clean'' and ``test other'' subsets when no extra LM text is provided.

研究动机与目标

探索在基于 Transformer 的 ASR 中如何引入语音特征的位置信息。
提出卷积上下文作为输入处理，在 Transformer 模块前提供相对位置信号。
考察带有卷积上下文的深编码器在 ASR 中的优化稳定性与性能。
在 Librispeech 上评估，不使用外部语言模型数据，以评估对 LM 提升的正交性。

提出的方法

用 2-D convNet 编码器和 1-D convNet 解码器替代正弦位置信 Embeddings，以学习上下文输入表示。
在编码器中使用两个 2-D 卷积块，以及多层编码器 Transformer 块的深层结构。
在解码器嵌入上应用 1-D 卷积块，配置独立的解码器 Transformer 块和注意力层。
避免学习率预热；使用 AdaDelta，固定学习率为 1.0 且进行梯度裁剪。
在 Librispeech 1000 小时上端到端训练，使用 5k unigram 子词单元；报告最后 80 轮中的平均最近 30 次检查点。

实验结果

研究问题

RQ1卷积上下文是否提供了必要的相对位置信息，使 Transformer 能够建模语音中的长距离依赖？
RQ2解码器上下文深度以及编码器/解码器深度如何影响 Librispeech 场景（dev/测试，clean/other）下的 WER？
RQ3在放弃正弦位置嵌入而改用学习的卷积上下文后，ASR 性能的影响？
RQ4在没有外部语言模型的情况下，带有卷积上下文的深编码器是否能达到具有竞争力的 WER？

主要发现

所提出的卷积上下文在若干配置中相对于正弦位置嵌入提升了 WER。
在深编码器（如 16 个编码块）和多层解码器注意力的最佳配置下，在 dev other 和 test other 上实现了 12% 和 16% 的相对 WER 下降，且未使用额外的 LM 数据。
解码器上下文深度和更广的编码器深度比浅层设置表现更好；跨多个卷积层的广泛上下文更有利。
在未使用外部 LM 文本时，模型在 Librispeech test clean 与 test other 上的 WER 分别为 4.7 与 12.9，相较于之前的结果。
使用固定学习率 1.0、AdaDelta 且无 warmup 仍能实现稳定收敛并获得强性能。
将此方法与未来基于 LM 的改进（如 OCD）结合，可能带来进一步提升。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。