[论文解读] Transferring Knowledge from a RNN to a DNN
本文提出将大型RNN声学模型的知识迁移至小型DNN,以提升资源受限嵌入式自动语音识别(ASR)系统的性能。通过最小化RNN的软对齐分布与小型DNN输出之间的Kullback-Leibler散度,该方法在无额外推理开销的情况下,将WSJ eval92数据集上的词错误率(WER)从4.54%降低至3.93%,实现了13%的相对性能提升。
Deep Neural Network (DNN) acoustic models have yielded many state-of-the-art results in Automatic Speech Recognition (ASR) tasks. More recently, Recurrent Neural Network (RNN) models have been shown to outperform DNNs counterparts. However, state-of-the-art DNN and RNN models tend to be impractical to deploy on embedded systems with limited computational capacity. Traditionally, the approach for embedded platforms is to either train a small DNN directly, or to train a small DNN that learns the output distribution of a large DNN. In this paper, we utilize a state-of-the-art RNN to transfer knowledge to small DNN. We use the RNN model to generate soft alignments and minimize the Kullback-Leibler divergence against the small DNN. The small DNN trained on the soft RNN alignments achieved a 3.93 WER on the Wall Street Journal (WSJ) eval92 task compared to a baseline 4.54 WER or more than 13% relative improvement.
研究动机与目标
- 解决在计算能力有限的嵌入式平台部署高性能ASR模型的挑战。
- 提升适用于嵌入式部署的小型DNN的词错误率(WER)性能。
- 通过使用来自先进RNN模型的更具信息量的软对齐,克服硬GMM对齐的局限性。
- 证明从RNN专家进行知识蒸馏可优于从DNN专家进行蒸馏,从而提升小型DNN的训练效果。
- 探究在知识迁移至小型模型时,性能瓶颈是由模型容量还是对齐质量所导致。
提出的方法
- 训练一个大型、最先进的RNN声学模型作为知识源,生成在声学状态上的软对齐分布。
- 将RNN的输出后验概率作为软标签,用于训练更小的DNN,最小化RNN与DNN输出分布之间的Kullback-Leibler(KL)散度。
- 对RNN输出分布应用前98%概率的阈值,聚焦于最置信的预测结果,避免低概率状态带来的噪声。
- 使用基于RNN软对齐的交叉熵损失训练小型DNN,而非基于硬GMM对齐。
- 以dev93集作为早停准则,交叉熵误差(CSE)作为优化指标。
- 在多种训练标签之间进行性能比较:硬GMM、硬RNN、软RNN和软DNN对齐。
实验结果
研究问题
- RQ1从大型RNN进行知识蒸馏是否能提升小型DNN在ASR任务中的性能?
- RQ2使用来自RNN的软对齐是否优于来自DNN的软对齐或硬GMM对齐,以提升小型DNN的训练效果?
- RQ3RNN软对齐的质量对小型DNN的泛化能力和WER有何影响?
- RQ4在知识迁移过程中,性能瓶颈是源于小型DNN的模型容量,还是软对齐标签的质量?
- RQ5在RNN对齐中选择最高概率的策略如何影响最终模型的性能?
主要发现
- 在大型RNN生成的软对齐上进行训练的小型DNN,在WSJ eval92数据集上实现了3.93%的WER,相较于基于硬GMM对齐训练的基线模型(WER为4.54%)实现了13%的相对性能提升。
- 在dev93集上,基于软RNN对齐训练的小型DNN实现了1.24617的交叉熵误差(CSE),低于使用GMM对齐训练的大型RNN模型(CSE为1.27620),表明其在优化过程中表现更优。
- 基于软RNN对齐训练的小型DNN优于基于软DNN对齐训练的小型DNN(WER为4.27%),表明RNN生成的软对齐比DNN生成的软对齐更具信息量,适用于知识蒸馏。
- 仅使用RNN对齐中最高概率(top-1)的模型性能劣于GMM对齐,凸显在软标签中保留多个高概率状态的重要性。
- 基于软RNN对齐训练的小型DNN在dev93集上的CSE低于大型RNN模型,表明可能存在过拟合或分布偏移,但WER表现仍更优。
- 结果表明,RNN软对齐的质量是知识蒸馏成功的关键因素,且在此设置下,模型容量可能并非主要瓶颈。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。