QUICK REVIEW

[论文解读] Deep LSTM for Large Vocabulary Continuous Speech Recognition

Xu Tian, Jun Zhang|arXiv (Cornell University)|Mar 21, 2017

Speech Recognition and Synthesis参考文献 14被引用 23

一句话总结

本文提出了一种深层单向LSTM训练框架，结合层级预训练、指数移动平均（EMA）和知识蒸馏，用于大规模词汇连续语音识别。通过将9层模型的知识蒸馏到2层模型中，实现了14%的相对字符错误率（CER）降低，同时保持了极低的精度损失和实时因子（RTF），并仅使用全数据集的14%即可实现高效的迁移学习，结合分段最小贝叶斯风险（sMBR）训练。

ABSTRACT

Recurrent neural networks (RNNs), especially long short-term memory (LSTM) RNNs, are effective network for sequential task like speech recognition. Deeper LSTM models perform well on large vocabulary continuous speech recognition, because of their impressive learning ability. However, it is more difficult to train a deeper network. We introduce a training framework with layer-wise training and exponential moving average methods for deeper LSTM models. It is a competitive framework that LSTM models of more than 7 layers are successfully trained on Shenma voice search data in Mandarin and they outperform the deep LSTM models trained by conventional approach. Moreover, in order for online streaming speech recognition applications, the shallow model with low real time factor is distilled from the very deep model. The recognition accuracy have little loss in the distillation process. Therefore, the model trained with the proposed training framework reduces relative 14\% character error rate, compared to original model which has the similar real-time capability. Furthermore, the novel transfer learning strategy with segmental Minimum Bayes-Risk is also introduced in the framework. The strategy makes it possible that training with only a small part of dataset could outperform full dataset training from the beginning.

研究动机与目标

为解决训练极深LSTM模型进行大规模词汇连续语音识别（LVCSR）的挑战，此类模型因梯度消失和收敛性差而难以优化。
通过将深层高精度模型的知识蒸馏到浅层低延迟模型中，实现低性能损失的实时流式语音识别。
通过引入一种新颖的迁移学习策略，利用分段最小贝叶斯风险（sMBR），显著降低特定领域适应的数据与训练成本，仅需全数据集一小部分即可实现高性能。
通过结合层级预训练、EMA以及多GPU环境下同步SGD与模型平均，提升训练效率与模型鲁棒性。

提出的方法

采用层级预训练初始化更深的LSTM网络，相比Xavier初始化，可提升收敛性与性能。
在训练过程中应用模型参数的指数移动平均（EMA），以稳定优化过程并提升泛化能力。
使用知识蒸馏技术，将9层深层LSTM模型的知识迁移至2层浅层模型，保持高精度的同时显著降低实时因子（RTF）。
提出一种新颖的迁移学习策略，采用分段最小贝叶斯风险（sMBR）损失，仅需1,000小时标注数据即可实现与全量7,300小时数据集训练相当的性能。
结合同步SGD与模型平均，以及分块模型更新过滤器（BMUF），实现在多GPU设置下的高效训练，实现线性加速且精度损失极小。
采用帧堆叠技术，通过在单个输入中提供多帧上下文，加速训练与解码过程。

实验结果

研究问题

RQ1能否通过结合层级预训练与EMA的新型训练框架，成功训练超过7层的深层LSTM模型用于LVCSR？
RQ2通过蒸馏技术，能否从极深LSTM模型（如9层）向浅层模型（如2层）有效迁移知识，同时保持极低的精度损失？
RQ3利用sMBR损失的迁移学习策略，能否仅用少量数据即实现与全量数据集训练相当的性能？
RQ4EMA、层级预训练与知识蒸馏的组合，对流式语音识别中的实时因子（RTF）与字符错误率（CER）有何影响？
RQ5与标准交叉熵（CE）训练相比，序列判别性训练（通过sMBR）在深层与蒸馏模型中对CER降低的贡献如何？

主要发现

使用层级预训练与sMBR训练的9层单向LSTM模型，实现了2.49%的字符错误率（CER），显著优于标准训练方法。
将9层模型的知识蒸馏到2层模型中，使RTF降低53%，同时CER仅增加5%，实现了可接受精度下的实时流式识别。
蒸馏后的2层模型相比从头使用交叉熵损失训练的2层模型，实现了14%的相对CER降低，证明了知识迁移的有效性。
仅使用1,000小时Amap特定数据进行sMBR迁移学习，其性能优于从头开始使用全量7,300小时数据集训练的模型，CER达到6.26%（全量训练为6.81%），表明该方法在小样本下具有显著优势。
层极预训练与EMA的结合显著提升了训练稳定性与收敛性，尤其在深层网络中表现优异，全面超越Xavier初始化在所有深度下的表现。
通过层级训练增加三个网络层，所提框架实现了12.6%的相对CER降低，证明了在合理训练策略下增加深度的有效性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。