QUICK REVIEW

[论文解读] Deep Recurrent Neural Networks for Acoustic Modelling

William Chan, Ian Lane|arXiv (Cornell University)|Apr 7, 2015

Speech Recognition and Synthesis参考文献 9被引用 31

一句话总结

本文提出了一种TC-DNN-BLSTM-DNN模型用于自动语音识别中的声学建模，结合时间卷积DNN进行特征处理、双向LSTM进行上下文建模，并通过最终的DNN进行后验概率估计。该模型在WSJ eval92任务上实现了3.47%的WER，相较于基线DNN模型实现了超过8%的相对性能提升。

ABSTRACT

We present a novel deep Recurrent Neural Network (RNN) model for acoustic modelling in Automatic Speech Recognition (ASR). We term our contribution as a TC-DNN-BLSTM-DNN model, the model combines a Deep Neural Network (DNN) with Time Convolution (TC), followed by a Bidirectional Long Short-Term Memory (BLSTM), and a final DNN. The first DNN acts as a feature processor to our model, the BLSTM then generates a context from the sequence acoustic signal, and the final DNN takes the context and models the posterior probabilities of the acoustic states. We achieve a 3.47 WER on the Wall Street Journal (WSJ) eval92 task or more than 8% relative improvement over the baseline DNN models.

研究动机与目标

通过利用深层循环架构，更好地捕捉标准DNN无法充分建模的长程时间依赖关系，以提升自动语音识别中的声学建模性能。
通过引入具有双向LSTM单元的循环架构，解决CNN在建模长期时间模式方面的局限性。
设计一种端到端可训练的统一框架，结合非线性特征变换、序列上下文学习和后验概率估计。
评估时间卷积和更深网络架构在WSJ语料库上降低WER方面的有效性。

提出的方法

模型使用时间卷积（TC）层处理fMLLR特征的固定长度上下文窗口，以增强局部时间结构的表征能力。
深层DNN（TC-DNN）作为特征处理器，通过非线性变换将原始声学特征映射到更高维空间。
双向LSTM（BLSTM）层以正向和反向两个方向处理变换后的特征，以捕捉全面的时间上下文信息。
最终的DNN层接收拼接后的BLSTM输出，并估计语音状态的后验概率，用于发音单元分类。
模型采用异步随机梯度下降（ASGD）在多个GPU上进行训练，以加速收敛。
该架构避免依赖预训练，通过softmax交叉熵损失实现端到端优化。

实验结果

研究问题

RQ1具有时间卷积和双向LSTM的深层RNN架构是否能在语音识别声学建模中超越标准DNN？
RQ2在BLSTM之前引入非线性特征处理阶段（TC-DNN）是否相比直接输入LSTM能提升模型性能？
RQ3时间卷积的引入如何影响语音信号中长期时间依赖关系的学习？
RQ4分布式异步SGD训练是否能在减少训练时间的同时，实现与标准SGD相当的WER性能？

主要发现

TC-DNN-BLSTM-DNN模型在WSJ eval92测试集上实现了3.47%的WER，相较于基线DNN模型实现了8%的相对性能提升。
引入时间卷积后，WER从无TC时的3.76%降低至3.47%，表明更丰富的输入表征具有重要意义。
不使用时间卷积的DNN-BLSTM-DNN变体实现了3.76%的WER，相比128个单元的BLSTM模型实现了28%的相对性能提升。
采用分布式ASGD训练将训练时间从SGD的51.5小时减少至16.8小时，尽管评估WER略微上升至3.72%。
使用DBN进行预训练并未显著提升性能，因为基于ReLU的DNN无需预训练即可达到3.79%的WER，几乎与预训练版本的3.81%相当。
消融实验确认，所有组件——时间卷积、DNN特征处理、BLSTM上下文建模以及最终DNN——均对最终性能有关键贡献。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。