QUICK REVIEW

[论文解读] Towards Online End-to-end Transformer Automatic Speech Recognition

Emiru Tsunoo, Yosuke Kashiwagi|arXiv (Cornell University)|Oct 25, 2019

Speech Recognition and Synthesis参考文献 32被引用 31

一句话总结

该论文通过将一种受单调分块注意力（MoChA）启发的新型解码机制整合到Transformer解码器中，提出了一种在线端到端Transformer自动语音识别（ASR）系统，利用多头注意力和残差连接实现实时推理。该方法在WSJ和AISHELL-1数据集上优于传统的分块处理方法，分别实现了6.6%的WER和9.7%的CER，且充分利用了完整上下文信息。

ABSTRACT

The Transformer self-attention network has recently shown promising performance as an alternative to recurrent neural networks in end-to-end (E2E) automatic speech recognition (ASR) systems. However, Transformer has a drawback in that the entire input sequence is required to compute self-attention. We have proposed a block processing method for the Transformer encoder by introducing a context-aware inheritance mechanism. An additional context embedding vector handed over from the previously processed block helps to encode not only local acoustic information but also global linguistic, channel, and speaker attributes. In this paper, we extend it towards an entire online E2E ASR system by introducing an online decoding process inspired by monotonic chunkwise attention (MoChA) into the Transformer decoder. Our novel MoChA training and inference algorithms exploit the unique properties of Transformer, whose attentions are not always monotonic or peaky, and have multiple heads and residual connections of the decoder layers. Evaluations of the Wall Street Journal (WSJ) and AISHELL-1 show that our proposed online Transformer decoder outperforms conventional chunkwise approaches.

研究动机与目标

为了在传统自注意力机制需要完整输入的前提下，实现基于Transformer架构的端到端在线自动语音识别。
通过引入可学习的、上下文感知的分块偏移机制，克服标准分块处理在解码器中的局限性。
将单调分块注意力（MoChA）适配到具有非单调注意力模式和多条残差连接的Transformer解码器中。
通过在不同分块间复用过去编码特征，同时确保实时推理，维持在线设置下的高ASR准确率。
开发一种新型训练算法，以处理解码器层中多个注意力头和残差连接的MoChA机制。

提出的方法

在Transformer解码器中引入基于触发的分块偏移机制，利用源-目标注意力（STA）确定最优分块边界。
在编码器中采用上下文感知的继承机制，其中来自前一个分块的上下文嵌入向量可保留全局语言、通道和说话人属性。
通过构建跨多个注意力头和残差连接的可学习单调能量函数，将MoChA适配到Transformer解码器中。
在每个分块内或使用所有过去编码帧计算源-目标注意力（STA），以引导注意力并改善对齐效果。
采用混合训练目标，结合标准交叉熵损失与MoChA分块过程的可微分近似，以稳定训练过程。
使用束搜索解码，并结合外部语言模型进行浅层融合；通过学习到的权重对CTC和Transformer输出进行重排序。

实验结果

研究问题

RQ1能否有效将单调分块注意力机制适配到具有非单调注意力模式的Transformer解码器中？
RQ2如何利用Transformer解码器中多头注意力和残差连接的独特性质，以提升在线ASR性能？
RQ3能否将编码器中的上下文感知分块处理与在线解码策略相结合，实现在最小准确率损失下的全在线端到端ASR？
RQ4在在线设置中，是否使用所有过去编码特征能提升性能，特别是在低资源或词形复杂的语言（如普通话）中？
RQ5所提出的MoChA训练算法如何在保持训练稳定性的同时，处理Transformer注意力的非单调特性？

主要发现

所提出的在线Transformer解码器在WSJ测试集上实现了6.6%的WER，优于基线批处理解码模型（6.0%）和所有其他在线方法。
在AISHELL-1普通话数据集上，所提方法实现了9.7%的CER，显著优于次佳在线方法（18.7% CER），并接近离线模型的性能。
与基于中位数的分块基线相比，在WSJ上使用所有过去编码特征使WER相对降低15.3%，在AISHELL-1上CER相对降低49.2%。
采用完整上下文信息的模型在所有在线方法中达到最高准确率，表明所提出的MoChA机制能有效捕捉长距离依赖关系。
新型MoChA训练算法成功稳定了在多注意力头和残差连接存在下的训练过程，实现了可靠的在线推理。
通过最优融合权重（WSJ为0.3，AISHELL-1为0.7）结合CTC与Transformer输出，进一步提升了识别准确率，证实了混合解码的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。