QUICK REVIEW

[论文解读] Transformer-Transducer: End-to-End Speech Recognition with Self-Attention

Ching-Feng Yeh, Jay Mahadeokar|arXiv (Cornell University)|Oct 28, 2019

Speech Recognition and Synthesis被引用 76

一句话总结

引入基于 Transformer 的神经传输器，结合因果卷积和截断自注意力以实现端到端的流式语音识别；在 LibriSpeech 上以紧凑模型实现具有竞争力的 WER。

ABSTRACT

We explore options to use Transformer networks in neural transducer for end-to-end speech recognition. Transformer networks use self-attention for sequence modeling and comes with advantages in parallel computation and capturing contexts. We propose 1) using VGGNet with causal convolution to incorporate positional information and reduce frame rate for efficient inference 2) using truncated self-attention to enable streaming for Transformer and reduce computational complexity. All experiments are conducted on the public LibriSpeech corpus. The proposed Transformer-Transducer outperforms neural transducer with LSTM/BLSTM networks and achieved word error rates of 6.37 % on the test-clean set and 15.30 % on the test-other set, while remaining streamable, compact with 45.7M parameters for the entire system, and computationally efficient with complexity of O(T), where T is input sequence length.

研究动机与目标

在端到端 ASR 中推动在神经传输器框架内使用 Transformer 架构的动机。
提出编码器改进（具有因果卷积的 VGGNet）以建模上下文并降低帧率。
引入截断自注意力以实现流式推理并在保持准确度的同时降低复杂度。
在 LibriSpeech 上进行评估，以与 LSTM/BLSTM 基线进行比较，并评估准确性、时延和模型大小之间的权衡。

提出的方法

在神经传输器（RNN-T）框架内采用基于 Transformer 的编码器。
融合 VGGNet 风格的因果卷积以引入位置信息并降低帧率（VGG-Transformer）。
实现截断自注意力以限定上下文并实现流式推理的 O(T) 复杂度。
使用 joiner 将编码器输出与预测器输出结合起来以生成用于符号预测的对数几率（logits）。
在大致相等的参数预算下，针对多种编码器/预测器配置（LSTM 与 Transformer 变体）进行实验。
在 LibriSpeech 上进行训练与评估，使用 SpecAugment 和 SentencePiece 标记化。

实验结果

研究问题

RQ1 Transformer 基于编码器在神经传输器中是否能够达到或超过基于 LSTM 的编码器用于端到端 ASR 的性能？
RQ2因果卷积是否在不牺牲准确度的前提下改善上下文建模并降低帧率？
RQ3截断自注意力是否能实现流式推理同时保持在 LibriSpeech 上的具有竞争力的 WER？
RQ4使用 Transformer 编码器作为神经传输器的一部分在准确性、时延和模型大小方面的权衡是什么？

主要发现

在相同参数预算下，使用 VGG-Transformer 编码器的 Transformer-Transducer 相较于基于 LSTM 的编码器表现出较强的性能。
无限制自注意力（非流式）配合 Transformer 编码器优于 BLSTM 基线但不是流式的。
采用截断自注意力（L=32，R=4）时，模型可流式并在降低复杂度至 O(T) 的同时实现具有竞争力的 WER。
最佳截断注意力配置（L=32，R=4）在接近无限制注意力情况下的 WER，并实现可管理时延的流式处理。
在所有配置中，所提出的模型在 LibriSpeech 上以 45.7M 参数的系统实现了测试集的 6.37%test-clean 和 15.30%test-other 的 WER。
该方法在设备端 ASR 中展现了出色的准确性–延迟–大小的平衡。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。