QUICK REVIEW

[论文解读] Transferring Knowledge from a RNN to a DNN

William Chan, Nan Rosemary Ke|arXiv (Cornell University)|Apr 7, 2015

Speech Recognition and Synthesis参考文献 11被引用 55

一句话总结

本文提出将大型RNN声学模型的知识迁移至小型DNN，以提升资源受限嵌入式自动语音识别（ASR）系统的性能。通过最小化RNN的软对齐分布与小型DNN输出之间的Kullback-Leibler散度，该方法在无额外推理开销的情况下，将WSJ eval92数据集上的词错误率（WER）从4.54%降低至3.93%，实现了13%的相对性能提升。

ABSTRACT

Deep Neural Network (DNN) acoustic models have yielded many state-of-the-art results in Automatic Speech Recognition (ASR) tasks. More recently, Recurrent Neural Network (RNN) models have been shown to outperform DNNs counterparts. However, state-of-the-art DNN and RNN models tend to be impractical to deploy on embedded systems with limited computational capacity. Traditionally, the approach for embedded platforms is to either train a small DNN directly, or to train a small DNN that learns the output distribution of a large DNN. In this paper, we utilize a state-of-the-art RNN to transfer knowledge to small DNN. We use the RNN model to generate soft alignments and minimize the Kullback-Leibler divergence against the small DNN. The small DNN trained on the soft RNN alignments achieved a 3.93 WER on the Wall Street Journal (WSJ) eval92 task compared to a baseline 4.54 WER or more than 13% relative improvement.

研究动机与目标

解决在计算能力有限的嵌入式平台部署高性能ASR模型的挑战。
提升适用于嵌入式部署的小型DNN的词错误率（WER）性能。
通过使用来自先进RNN模型的更具信息量的软对齐，克服硬GMM对齐的局限性。
证明从RNN专家进行知识蒸馏可优于从DNN专家进行蒸馏，从而提升小型DNN的训练效果。
探究在知识迁移至小型模型时，性能瓶颈是由模型容量还是对齐质量所导致。

提出的方法

训练一个大型、最先进的RNN声学模型作为知识源，生成在声学状态上的软对齐分布。
将RNN的输出后验概率作为软标签，用于训练更小的DNN，最小化RNN与DNN输出分布之间的Kullback-Leibler（KL）散度。
对RNN输出分布应用前98%概率的阈值，聚焦于最置信的预测结果，避免低概率状态带来的噪声。
使用基于RNN软对齐的交叉熵损失训练小型DNN，而非基于硬GMM对齐。
以dev93集作为早停准则，交叉熵误差（CSE）作为优化指标。
在多种训练标签之间进行性能比较：硬GMM、硬RNN、软RNN和软DNN对齐。

实验结果

研究问题

RQ1从大型RNN进行知识蒸馏是否能提升小型DNN在ASR任务中的性能？
RQ2使用来自RNN的软对齐是否优于来自DNN的软对齐或硬GMM对齐，以提升小型DNN的训练效果？
RQ3RNN软对齐的质量对小型DNN的泛化能力和WER有何影响？
RQ4在知识迁移过程中，性能瓶颈是源于小型DNN的模型容量，还是软对齐标签的质量？
RQ5在RNN对齐中选择最高概率的策略如何影响最终模型的性能？

主要发现

在大型RNN生成的软对齐上进行训练的小型DNN，在WSJ eval92数据集上实现了3.93%的WER，相较于基于硬GMM对齐训练的基线模型（WER为4.54%）实现了13%的相对性能提升。
在dev93集上，基于软RNN对齐训练的小型DNN实现了1.24617的交叉熵误差（CSE），低于使用GMM对齐训练的大型RNN模型（CSE为1.27620），表明其在优化过程中表现更优。
基于软RNN对齐训练的小型DNN优于基于软DNN对齐训练的小型DNN（WER为4.27%），表明RNN生成的软对齐比DNN生成的软对齐更具信息量，适用于知识蒸馏。
仅使用RNN对齐中最高概率（top-1）的模型性能劣于GMM对齐，凸显在软标签中保留多个高概率状态的重要性。
基于软RNN对齐训练的小型DNN在dev93集上的CSE低于大型RNN模型，表明可能存在过拟合或分布偏移，但WER表现仍更优。
结果表明，RNN软对齐的质量是知识蒸馏成功的关键因素，且在此设置下，模型容量可能并非主要瓶颈。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。