Skip to main content
QUICK REVIEW

[论文解读] Transferring Knowledge from a RNN to a DNN

William Chan, Nan Rosemary Ke|arXiv (Cornell University)|Apr 7, 2015
Speech Recognition and Synthesis参考文献 11被引用 55
一句话总结

本文提出将大型RNN声学模型的知识迁移至小型DNN,以提升资源受限嵌入式自动语音识别(ASR)系统的性能。通过最小化RNN的软对齐分布与小型DNN输出之间的Kullback-Leibler散度,该方法在无额外推理开销的情况下,将WSJ eval92数据集上的词错误率(WER)从4.54%降低至3.93%,实现了13%的相对性能提升。

ABSTRACT

Deep Neural Network (DNN) acoustic models have yielded many state-of-the-art results in Automatic Speech Recognition (ASR) tasks. More recently, Recurrent Neural Network (RNN) models have been shown to outperform DNNs counterparts. However, state-of-the-art DNN and RNN models tend to be impractical to deploy on embedded systems with limited computational capacity. Traditionally, the approach for embedded platforms is to either train a small DNN directly, or to train a small DNN that learns the output distribution of a large DNN. In this paper, we utilize a state-of-the-art RNN to transfer knowledge to small DNN. We use the RNN model to generate soft alignments and minimize the Kullback-Leibler divergence against the small DNN. The small DNN trained on the soft RNN alignments achieved a 3.93 WER on the Wall Street Journal (WSJ) eval92 task compared to a baseline 4.54 WER or more than 13% relative improvement.

研究动机与目标

  • 解决在计算能力有限的嵌入式平台部署高性能ASR模型的挑战。
  • 提升适用于嵌入式部署的小型DNN的词错误率(WER)性能。
  • 通过使用来自先进RNN模型的更具信息量的软对齐,克服硬GMM对齐的局限性。
  • 证明从RNN专家进行知识蒸馏可优于从DNN专家进行蒸馏,从而提升小型DNN的训练效果。
  • 探究在知识迁移至小型模型时,性能瓶颈是由模型容量还是对齐质量所导致。

提出的方法

  • 训练一个大型、最先进的RNN声学模型作为知识源,生成在声学状态上的软对齐分布。
  • 将RNN的输出后验概率作为软标签,用于训练更小的DNN,最小化RNN与DNN输出分布之间的Kullback-Leibler(KL)散度。
  • 对RNN输出分布应用前98%概率的阈值,聚焦于最置信的预测结果,避免低概率状态带来的噪声。
  • 使用基于RNN软对齐的交叉熵损失训练小型DNN,而非基于硬GMM对齐。
  • 以dev93集作为早停准则,交叉熵误差(CSE)作为优化指标。
  • 在多种训练标签之间进行性能比较:硬GMM、硬RNN、软RNN和软DNN对齐。

实验结果

研究问题

  • RQ1从大型RNN进行知识蒸馏是否能提升小型DNN在ASR任务中的性能?
  • RQ2使用来自RNN的软对齐是否优于来自DNN的软对齐或硬GMM对齐,以提升小型DNN的训练效果?
  • RQ3RNN软对齐的质量对小型DNN的泛化能力和WER有何影响?
  • RQ4在知识迁移过程中,性能瓶颈是源于小型DNN的模型容量,还是软对齐标签的质量?
  • RQ5在RNN对齐中选择最高概率的策略如何影响最终模型的性能?

主要发现

  • 在大型RNN生成的软对齐上进行训练的小型DNN,在WSJ eval92数据集上实现了3.93%的WER,相较于基于硬GMM对齐训练的基线模型(WER为4.54%)实现了13%的相对性能提升。
  • 在dev93集上,基于软RNN对齐训练的小型DNN实现了1.24617的交叉熵误差(CSE),低于使用GMM对齐训练的大型RNN模型(CSE为1.27620),表明其在优化过程中表现更优。
  • 基于软RNN对齐训练的小型DNN优于基于软DNN对齐训练的小型DNN(WER为4.27%),表明RNN生成的软对齐比DNN生成的软对齐更具信息量,适用于知识蒸馏。
  • 仅使用RNN对齐中最高概率(top-1)的模型性能劣于GMM对齐,凸显在软标签中保留多个高概率状态的重要性。
  • 基于软RNN对齐训练的小型DNN在dev93集上的CSE低于大型RNN模型,表明可能存在过拟合或分布偏移,但WER表现仍更优。
  • 结果表明,RNN软对齐的质量是知识蒸馏成功的关键因素,且在此设置下,模型容量可能并非主要瓶颈。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。