Skip to main content
QUICK REVIEW

[论文解读] Exploring Neural Transducers for End-to-End Speech Recognition

Eric Battenberg, Jitong Chen|ArXiv.org|Jul 24, 2017
Speech Recognition and Synthesis参考文献 21被引用 72
一句话总结

本文实证比较 CTC、RNN-Transducer 与基于注意力的 Seq2Seq 在端到端语音识别中的表现,结果显示在 Hub5’00 上,RNN-Transducer 和注意力模型在没有外部语言模型时即可超越 CTC,并讨论编码器结构对性能的影响及解码简化。

ABSTRACT

In this work, we perform an empirical comparison among the CTC, RNN-Transducer, and attention-based Seq2Seq models for end-to-end speech recognition. We show that, without any language model, Seq2Seq and RNN-Transducer models both outperform the best reported CTC models with a language model, on the popular Hub5'00 benchmark. On our internal diverse dataset, these trends continue - RNNTransducer models rescored with a language model after beam search outperform our best CTC models. These results simplify the speech recognition pipeline so that decoding can now be expressed purely as neural network operations. We also study how the choice of encoder architecture affects the performance of the three models - when all encoder layers are forward only, and when encoders downsample the input representation aggressively.

研究动机与目标

  • 评估 CTC、RNN-Transducer 和基于注意力的端到端 ASR 模型之间的差异。
  • 在 Hub5’00 和内部多样数据集上评估性能。
  • 研究编码器架构及其对模型性能与流式解码能力的影响。
  • 检查解码复杂性及每个模型对外部语言模型的依赖。

提出的方法

  • 将三种转换器架构正式定义为:CTC、RNN-Transducer 和基于注意力的 Seq2Seq。
  • 在相同数据和方法学下训练所有模型以实现公平比较。
  • 分析有无外部语言模型时的解码。
  • 尝试包括前向仅 vs 双向以及不同时间下采样(池化)的编码器配置。
  • 可视化对齐并比较单调与非单调注意力方案。

实验结果

研究问题

  • RQ1在 Hub5’00 上,端到端 ASR 性能方面,CTC、RNN-Transducer 和注意力模型在没有外部LM 的情况下的比较如何?
  • RQ2外部语言模型在不同架构上是否提供相似的增益,还是有些模型能够从数据中学习到更强的隐式语言模型?
  • RQ3编码器架构(前向仅 vs 双向,以及时间下采样)如何影响性能以及跨模型的流式解码可行性?
  • RQ4每种转换模型在输入-输出对齐方面的定性差异是什么?

主要发现

  • 在没有外部 LM 的情况下,注意力和 RNN-Transducer 模型在 Hub5’00 上的表现优于 CTC,并可与最好的基于 LM 的结果相竞争。
  • RNN-Transducers 在解码方面提供了最简单的流程,超参数更少,在经过束搜索和 LM 重排序后可在多样数据上达到或超过 CTC+LM 的性能。
  • 注意力和 RNN-Transducer 在很大程度上从数据中学习隐式语言建模,减少了解码阶段对大型外部语言模型的需求。
  • 前向仅的编码器配置使 CTC 和 RNN-Transducer 更适合流式;而完整注意力模型则从非流式、全序列处理中获益。
  • 编码器下采样(时间分块)降低了计算量;CTC 受益于中等下采样,而注意力模型可容忍更积极的池化。
  • 在 Hub5’00 上,以下 WER(单模型、无 LM)报告:CTC 9.0/17.7,RNN-Transducer 8.1/?,Attention 8.6/17.8,提供束搜索变体和 LM 重排序以便比较。)

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。