Skip to main content
QUICK REVIEW

[论文解读] Long Short-Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition

Haşim Sak, Andrew Senior|arXiv (Cornell University)|Feb 5, 2014
Speech Recognition and Synthesis参考文献 15被引用 859
一句话总结

本文提出了一种基于LSTM的新型RNN架构,引入了循环和非循环投影层,以提升大规模词汇量语音识别中的参数效率和性能。所提出的模型在大输出规模任务(例如,8000个上下文相关状态)中实现了最先进的识别准确率,并且收敛速度优于DNN和标准LSTM。

ABSTRACT

Long Short-Term Memory (LSTM) is a recurrent neural network (RNN) architecture that has been designed to address the vanishing and exploding gradient problems of conventional RNNs. Unlike feedforward neural networks, RNNs have cyclic connections making them powerful for modeling sequences. They have been successfully used for sequence labeling and sequence prediction tasks, such as handwriting recognition, language modeling, phonetic labeling of acoustic frames. However, in contrast to the deep neural networks, the use of RNNs in speech recognition has been limited to phone recognition in small scale tasks. In this paper, we present novel LSTM based RNN architectures which make more effective use of model parameters to train acoustic models for large vocabulary speech recognition. We train and compare LSTM, RNN and DNN models at various numbers of parameters and configurations. We show that LSTM models converge quickly and give state of the art speech recognition performance for relatively small sized models.

研究动机与目标

  • 解决标准LSTM网络在大规模词汇量语音识别中可扩展性和参数效率的局限性。
  • 克服传统RNN在序列建模过程中固有的梯度消失和梯度爆炸问题。
  • 提升在大输出空间(例如,8000个上下文相关状态)中的识别准确率,其中标准LSTM表现欠佳。
  • 证明基于LSTM的模型可在大规模语音识别任务中超越深度神经网络(DNN)。
  • 设计新型网络组件——循环和非循环投影层,以在不增加循环连接的情况下提升模型灵活性和性能。

提出的方法

  • 在LSTM层与输出层之间引入循环投影层,以减少循环参数数量,同时保持长期依赖性。
  • 在LSTM层之后添加非循环投影层,以在不增加循环连接的情况下提升模型容量,从而实现更灵活的参数分配。
  • 在LSTM单元中,对细胞输入和输出单元使用双曲正切(tanh)激活函数,对输入门、输出门和遗忘门使用逻辑斯蒂(logistic sigmoid)激活函数。
  • 通过从记忆单元到门的窥视孔连接(peephole connections),提升输出生成的时间精度。
  • 采用连接主义时间分类(CTC)进行端到端训练,适用于未分割的序列数据,实现声学建模与语言建模的联合优化。
  • 使用25ms的对数滤波器组能量特征(40维)作为输入,输出标签延迟5帧以增强上下文感知能力。

实验结果

研究问题

  • RQ1基于LSTM的RNN架构若结合投影层,是否能在大规模词汇量语音识别任务中超越标准LSTM和DNN?
  • RQ2循环和非循环投影层在大规模声学模型中如何影响参数效率和识别准确率?
  • RQ3所提出的架构在长序列建模中在多大程度上缓解了梯度消失和梯度爆炸问题?
  • RQ4同时包含循环和非循环投影层是否比仅使用其中一种类型带来更好的性能?
  • RQ5LSTM模型是否能在DNN曾占主导地位的大规模词汇量语音识别任务中实现最先进性能?

主要发现

  • 所提出的结合循环和非循环投影层的LSTM架构在大规模输出尺度任务(例如,8000个上下文相关状态)中显著优于标准LSTM和DNN模型。
  • 对于2000个上下文相关状态的模型,LSTM_c1024_r256配置的词错误率(WER)优于DNN_10w5_5_512_lr256模型,证明了其对DNN的优越性。
  • 具有512个记忆单元的LSTM_c512模型性能优于DNN_10w5_2_864_lr256模型,凸显了DNN中深度的重要性。
  • 所提出的架构收敛更快,训练更稳定,而标准RNN则因梯度爆炸和不稳定性而表现不佳。
  • 同时具备循环和非循环投影层的LSTM网络(例如,LSTM_1024_256)在帧准确率上高于参数数量相同的标准LSTM(例如,LSTM_1024)。
  • 结果表明,深度对DNN至关重要:将隐藏层数量从2层增至5层可显著提升性能,但即使如此,深度DNN仍被所提出的LSTM架构超越。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。