Skip to main content
QUICK REVIEW

[论文解读] Advances in Joint CTC-Attention based End-to-End Speech Recognition with a Deep CNN Encoder and RNN-LM

Takaaki Hori, Shinji Watanabe|arXiv (Cornell University)|Jun 8, 2017
Speech Recognition and Synthesis参考文献 26被引用 21
一句话总结

该论文提出了一种结合 CTC 与注意力机制的端到端自动语音识别(ASR)模型,采用基于深层 VGG 的卷积神经网络(CNN)编码器和外部循环神经网络语言模型(RNN-LM),在日语和中文语音识别任务上实现了最先进(SOTA)的性能表现。通过在训练和束搜索解码过程中同时结合 CTC 与注意力机制——采用重排序或单次遍历方法——并整合一个独立训练的 RNN-LM,该模型在无需语言学资源的前提下,将字符错误率(CER)降低了 5–10%,且优于传统混合式 ASR 系统。

ABSTRACT

We present a state-of-the-art end-to-end Automatic Speech Recognition (ASR) model. We learn to listen and write characters with a joint Connectionist Temporal Classification (CTC) and attention-based encoder-decoder network. The encoder is a deep Convolutional Neural Network (CNN) based on the VGG network. The CTC network sits on top of the encoder and is jointly trained with the attention-based decoder. During the beam search process, we combine the CTC predictions, the attention-based decoder predictions and a separately trained LSTM language model. We achieve a 5-10\% error reduction compared to prior systems on spontaneous Japanese and Chinese speech, and our end-to-end model beats out traditional hybrid ASR systems.

研究动机与目标

  • 通过消除对发音词典和语言模型等复杂模块化组件的依赖,简化端到端 ASR 系统。
  • 通过在训练和解码过程中联合训练 CTC 与注意力目标,提升识别准确率。
  • 利用深层 VGG 风格的 CNN 编码器增强声学表征学习能力。
  • 通过引入基于字符的 RNN-LM 改进语言建模,且无需语言学预处理。
  • 证明端到端模型可在低资源和非正式语音任务中超越传统混合式 ASR 系统。

提出的方法

  • 模型采用基于 VGG 架构的深层 CNN 编码器,包含 4 个卷积层和 2 个最大池化层,用于提取分层声学特征。
  • 采用联合 CTC-attention 框架,通过同时优化 CTC 和注意力目标来训练编码器,从而正则化对齐过程并提升单调性。
  • 在推理阶段,束搜索通过重排序或单次遍历解码方式,融合 CTC 预测结果、基于注意力的解码器输出以及 RNN-LM 分数。
  • 外部 RNN-LM 在与 ASR 任务相同的转录文本上独立训练,可单独使用或与主模型联合使用。
  • 模型使用 Chainer 深度学习框架进行训练,采用多任务学习(MTL)并结合速度扰动的数据增强技术。
  • 联合 CTC-attention 解码采用 CTC 与注意力概率的加权组合,以提升鲁棒性与准确性。

实验结果

研究问题

  • RQ1联合 CTC-attention 解码是否能显著提升端到端 ASR 性能,超越单独使用 CTC 或注意力机制?
  • RQ2在无语言学资源的条件下,集成预训练的 RNN-LM 是否能显著提升端到端 ASR 的识别准确率?
  • RQ3深层 VGG 风格的 CNN 编码器在捕捉端到端 ASR 所需判别性声学特征方面效果如何?
  • RQ4在低资源环境下,端到端模型能否在非正式语音任务中超越传统的 HMM-GMM 或 DNN-HMM 混合系统?
  • RQ5将 RNN-LM 与主模型联合训练对最终识别准确率有何影响?

主要发现

  • 在 CSJ 非正式日语语音识别任务中,采用 MTL-large + 联合解码 + RNN-LM 的设置,模型实现了 6.9% 的 CER,优于 DNN-混合系统。
  • 在 HKUST 普通话中文语音任务中,模型在使用 VGG 和 RNN-LM 的情况下达到 28.0% 的 CER,优于当前最先进(SOTA)的无图模型(lattice-free MMI)系统(28.2% CER)。
  • 与基线注意力模型相比(37.8% → 33.9%),单次遍历联合解码方法在 MTS 任务上将 CER 降低了 3.8%。
  • 在 MTS 任务上,集成独立训练的 RNN-LM 将 CER 降低了 3.0%(从 37.8% 降至 33.3%),证明其具有显著影响。
  • 在日语和中文非正式语音数据集上,与先前的端到端系统相比,该模型实现了 5–10% 的相对错误率降低。
  • 即使由于计算资源限制未能联合训练 RNN-LM,模型仍达到了 SOTA 性能,表明其在极少语言先验条件下具备强大的泛化能力。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。