Skip to main content
QUICK REVIEW

[论文解读] Residual Convolutional CTC Networks for Automatic Speech Recognition

Yisen Wang, Xuejiao Deng|arXiv (Cornell University)|Feb 24, 2017
Speech Recognition and Synthesis参考文献 25被引用 66
一句话总结

该论文提出了一个深度且宽的 RCNN-CTC 架构,具有残差连接并采用端到端 CTC 训练,外加一个基于 CTC 的系统组合,在 WSJ 与 Tencent Chat 数据上提升 ASR 精度。

ABSTRACT

Deep learning approaches have been widely used in Automatic Speech Recognition (ASR) and they have achieved a significant accuracy improvement. Especially, Convolutional Neural Networks (CNNs) have been revisited in ASR recently. However, most CNNs used in existing work have less than 10 layers which may not be deep enough to capture all human speech signal information. In this paper, we propose a novel deep and wide CNN architecture denoted as RCNN-CTC, which has residual connections and Connectionist Temporal Classification (CTC) loss function. RCNN-CTC is an end-to-end system which can exploit temporal and spectral structures of speech signals simultaneously. Furthermore, we introduce a CTC-based system combination, which is different from the conventional frame-wise senone-based one. The basic subsystems adopted in the combination are different types and thus mutually complementary to each other. Experimental results show that our proposed single system RCNN-CTC can achieve the lowest word error rate (WER) on WSJ and Tencent Chat data sets, compared to several widely used neural network systems in ASR. In addition, the proposed system combination can offer a further error reduction on these two data sets, resulting in relative WER reductions of $14.91\%$ and $6.52\%$ on WSJ dev93 and Tencent Chat data sets respectively.

研究动机与目标

  • 需要更深的 CNN 来捕捉语音的时域与频谱信息的动机。
  • 开发一个非常深且宽的带有残差连接的 CNN 架构用于 ASR,使用 CTC 损失。
  • 通过采用 CTC 实现端到端训练,而无需逐帧对齐。
  • 提出一种新颖的基于 CTC 的系统组合,以利用互补的子系统。
  • 在标准和大规模数据集上证明 WER 的提升,并分析系统组合的效益。

提出的方法

  • 提出 RCNN-CTC:一个非常深(超过 40 层)且宽的 CNN,带有残差块,用以建模语音的时空结构。
  • 使用大的初始卷积,随后是四组带有小 3x3 过滤器的 ResBlock,配合批量归一化和 ReLU 激活。
  • 使用 Connectionist Temporal Classification (CTC) 损失进行端到端训练,以在没有预对齐数据的情况下将语音帧与标签序列对齐。
  • 引入基于 CTC 的系统组合,利用最大正确词率(MCWR)标准选择不同子系统(RCNN-CTC、BLSTM、CLDNN)。
  • 在子系统间对齐、时间归一化,并构建一个词迁移网络(WTN),然后应用投票方案(最大置信度)产生最终转录。
  • 分析 1-best 与 N-best 假设,发现该设置下 N-best 并未带来改进。

实验结果

研究问题

  • RQ1一个非常深且宽的带残差的 CNN 配合 CTC 是否能超越传统的 CNN/LSTM 基的 ASR 模型?
  • RQ2端到端的 CTC 训练结合残差 CNN 是否在 WSJ 与像 Tencent Chat 这样的大规模移动数据上实现更低的 WER?
  • RQ3利用异质子系统的基于 CTC 的系统组合是否能在单一 RCNN-CTC 模型之外提供额外的增益?

主要发现

  • 在 WSJ eval92 和 dev93 的单系统基线中,RCNN-CTC 相较于 VGG+CTC、CLDNN+CTC、BLSTM+CTC,取得最低的 WER。
  • 提出的基于 CTC 的系统组合进一步降低了 WER,在 WSJ dev93 上相对最佳单一系统实现最高 14.91% 的相对改进,在 Tencent Chat 上实现 6.52% 的改进。
  • 在 Tencent Chat 上,RCNN-CTC 在 WER 上优于其他单一系统(VGG、CLDNN、BLSTM),凸显了深度带残差连接的 CNN 在大规模数据上的优势。
  • 基于 MCWR 的子系统选择倾向于将 RCNN-CTC 与 BLSTM 及 CLDNN 结合,取得了 WSJ 与 Tencent Chat 实验中的最佳综合 WER。
  • 在所提系统组合中,使用 N-best 假设并未优于 1-best。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。