Skip to main content
QUICK REVIEW

[论文解读] Deep Recurrent Neural Networks for Acoustic Modelling

William Chan, Ian Lane|arXiv (Cornell University)|Apr 7, 2015
Speech Recognition and Synthesis参考文献 9被引用 31
一句话总结

本文提出了一种TC-DNN-BLSTM-DNN模型用于自动语音识别中的声学建模,结合时间卷积DNN进行特征处理、双向LSTM进行上下文建模,并通过最终的DNN进行后验概率估计。该模型在WSJ eval92任务上实现了3.47%的WER,相较于基线DNN模型实现了超过8%的相对性能提升。

ABSTRACT

We present a novel deep Recurrent Neural Network (RNN) model for acoustic modelling in Automatic Speech Recognition (ASR). We term our contribution as a TC-DNN-BLSTM-DNN model, the model combines a Deep Neural Network (DNN) with Time Convolution (TC), followed by a Bidirectional Long Short-Term Memory (BLSTM), and a final DNN. The first DNN acts as a feature processor to our model, the BLSTM then generates a context from the sequence acoustic signal, and the final DNN takes the context and models the posterior probabilities of the acoustic states. We achieve a 3.47 WER on the Wall Street Journal (WSJ) eval92 task or more than 8% relative improvement over the baseline DNN models.

研究动机与目标

  • 通过利用深层循环架构,更好地捕捉标准DNN无法充分建模的长程时间依赖关系,以提升自动语音识别中的声学建模性能。
  • 通过引入具有双向LSTM单元的循环架构,解决CNN在建模长期时间模式方面的局限性。
  • 设计一种端到端可训练的统一框架,结合非线性特征变换、序列上下文学习和后验概率估计。
  • 评估时间卷积和更深网络架构在WSJ语料库上降低WER方面的有效性。

提出的方法

  • 模型使用时间卷积(TC)层处理fMLLR特征的固定长度上下文窗口,以增强局部时间结构的表征能力。
  • 深层DNN(TC-DNN)作为特征处理器,通过非线性变换将原始声学特征映射到更高维空间。
  • 双向LSTM(BLSTM)层以正向和反向两个方向处理变换后的特征,以捕捉全面的时间上下文信息。
  • 最终的DNN层接收拼接后的BLSTM输出,并估计语音状态的后验概率,用于发音单元分类。
  • 模型采用异步随机梯度下降(ASGD)在多个GPU上进行训练,以加速收敛。
  • 该架构避免依赖预训练,通过softmax交叉熵损失实现端到端优化。

实验结果

研究问题

  • RQ1具有时间卷积和双向LSTM的深层RNN架构是否能在语音识别声学建模中超越标准DNN?
  • RQ2在BLSTM之前引入非线性特征处理阶段(TC-DNN)是否相比直接输入LSTM能提升模型性能?
  • RQ3时间卷积的引入如何影响语音信号中长期时间依赖关系的学习?
  • RQ4分布式异步SGD训练是否能在减少训练时间的同时,实现与标准SGD相当的WER性能?

主要发现

  • TC-DNN-BLSTM-DNN模型在WSJ eval92测试集上实现了3.47%的WER,相较于基线DNN模型实现了8%的相对性能提升。
  • 引入时间卷积后,WER从无TC时的3.76%降低至3.47%,表明更丰富的输入表征具有重要意义。
  • 不使用时间卷积的DNN-BLSTM-DNN变体实现了3.76%的WER,相比128个单元的BLSTM模型实现了28%的相对性能提升。
  • 采用分布式ASGD训练将训练时间从SGD的51.5小时减少至16.8小时,尽管评估WER略微上升至3.72%。
  • 使用DBN进行预训练并未显著提升性能,因为基于ReLU的DNN无需预训练即可达到3.79%的WER,几乎与预训练版本的3.81%相当。
  • 消融实验确认,所有组件——时间卷积、DNN特征处理、BLSTM上下文建模以及最终DNN——均对最终性能有关键贡献。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。