QUICK REVIEW

[论文解读] Highway Long Short-Term Memory RNNs for Distant Speech Recognition

Yu Zhang, Guoguo Chen|arXiv (Cornell University)|Oct 30, 2015

Speech Recognition and Synthesis参考文献 19被引用 27

一句话总结

本文提出了一种高速公路长短期记忆网络（HLSTM）循环神经网络，通过在相邻层的记忆单元之间引入门控直连路径，缓解深层网络中的梯度消失问题，从而实现更深、更稳定的训练。该方法在AMI远距离语音识别（SDM）开发集/测试集上取得了43.9%/47.7%的新SOTA词错误率（WER），相较于深度前馈神经网络（DNN）相对提升15.7%，相较于深度长短期记忆网络（DLSTM）相对提升5.3%，尤其在结合序列训练与高速公路连接的Dropout正则化时表现更优。

ABSTRACT

In this paper, we extend the deep long short-term memory (DLSTM) recurrent neural networks by introducing gated direct connections between memory cells in adjacent layers. These direct links, called highway connections, enable unimpeded information flow across different layers and thus alleviate the gradient vanishing problem when building deeper LSTMs. We further introduce the latency-controlled bidirectional LSTMs (BLSTMs) which can exploit the whole history while keeping the latency under control. Efficient algorithms are proposed to train these novel networks using both frame and sequence discriminative criteria. Experiments on the AMI distant speech recognition (DSR) task indicate that we can train deeper LSTMs and achieve better improvement from sequence training with highway LSTMs (HLSTMs). Our novel model obtains $43.9/47.7\%$ WER on AMI (SDM) dev and eval sets, outperforming all previous works. It beats the strong DNN and DLSTM baselines with $15.7\%$ and $5.3\%$ relative improvement respectively.

研究动机与目标

为解决用于远距离语音识别（DSR）的深层LSTM网络中的梯度消失问题。
通过在相邻层的记忆单元之间引入门控直连路径，实现更深LSTM架构的训练。
通过增强信息流动与训练稳定性，提升在混响与重叠语音等挑战性DSR任务上的性能。
开发一种延迟可控的双向LSTM（LC-BLSTM），在保持低延迟的同时利用完整上下文信息。
证明序列判别性训练在高速公路连接上的有效性，尤其当与Dropout结合时。

提出的方法

在相邻LSTM层的记忆单元之间引入高速公路连接，实现信息无阻塞流动，缓解梯度消失问题。
采用可学习门控机制控制高速公路连接中的信息流动，实现信号的自适应路由。
在训练过程中对高速公路连接应用Dropout，动态调节其激活状态，提升泛化能力。
提出延迟可控的双向LSTM（LC-BLSTM），将未来上下文限制在固定帧数内，降低延迟同时保持性能。
同时使用帧级交叉熵损失与序列级判别性训练（如sMBR）优化模型。
使用CNTK工具包进行高效训练，并提供公开可用的工具以确保可复现性。

实验结果

研究问题

RQ1在LSTM层之间引入门控高速公路连接是否能显著提升远距离语音识别中的训练深度与性能？
RQ2高速公路连接的引入是否能增强深层LSTM模型中序列判别性训练的有效性？
RQ3对高速公路连接应用Dropout如何影响DSR任务中的模型泛化能力与词错误率（WER）？
RQ4延迟可控的双向LSTM能否在保持低推理延迟的同时，实现与全注意力双向LSTM相当的性能？
RQ5所提出的HLSTM架构是否在AMI SDM远距离语音识别基准上优于标准DNN、CNN与DLSTM？

主要发现

所提出的带Dropout的高速公路LSTM（HLSTM）在AMI SDM测试集上达到47.7%的WER，相较DLSTM基线相对提升5.3%。
HLSTM模型相较DNN基线相对降低WER 15.7%，在具有挑战性的远距离语音识别任务中取得显著性能提升。
更深的HLSTM网络（8层）在存在重叠语音时仍保持稳定性能（WER 50.7%），而标准LSTM在深度增加时性能显著下降（WER 52.6%）。
序列训练使3层HLSTM（带Dropout）的WER相对降低5.3%，而标准LSTM仅降低3%，表明高速公路连接能更充分地发挥序列判别性训练的优势。
LC-BLSTM变体实现了高效训练与解码，延迟极低，在速度与性能上均优于上下文敏感分块BLSTM。
该模型在AMI（SDM）开发集与测试集上实现了43.9%/47.7%的当前最佳WER，创下该任务的新SOTA记录。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。