QUICK REVIEW

[論文レビュー] Transferring Knowledge from a RNN to a DNN

William Chan, Nan Rosemary Ke|arXiv (Cornell University)|Apr 7, 2015

Speech Recognition and Synthesis参考文献 11被引用数 55

ひとこと要約

この論文では、リソース制約のある埋め込み型ASRシステムにおけるパフォーマンス向上を目的として、大規模なRNN音声モデルから小規模なDNNへ知識を転送する手法を提案している。RNNのソフトアラインメントと小規模DNNの出力の間のカルバック・ライブラー距離（Kullback-Leibler divergence）を最小化することで、追加の推論コストなしにWSJ eval92セットにおける誤り率（WER）を4.54%から3.93%まで低下させ、相対的に13%の改善を達成した。

ABSTRACT

Deep Neural Network (DNN) acoustic models have yielded many state-of-the-art results in Automatic Speech Recognition (ASR) tasks. More recently, Recurrent Neural Network (RNN) models have been shown to outperform DNNs counterparts. However, state-of-the-art DNN and RNN models tend to be impractical to deploy on embedded systems with limited computational capacity. Traditionally, the approach for embedded platforms is to either train a small DNN directly, or to train a small DNN that learns the output distribution of a large DNN. In this paper, we utilize a state-of-the-art RNN to transfer knowledge to small DNN. We use the RNN model to generate soft alignments and minimize the Kullback-Leibler divergence against the small DNN. The small DNN trained on the soft RNN alignments achieved a 3.93 WER on the Wall Street Journal (WSJ) eval92 task compared to a baseline 4.54 WER or more than 13% relative improvement.

研究の動機と目的

計算リソースが限られた埋め込みプラットフォームへの高パフォーマンスASRモデルの導入という課題に対処すること。
埋め込みデプロイメントに実用的な小規模DNNの語誤り率（WER）を向上させること。
ハードGMMアラインメントの限界を克服し、最先端のRNNモデルから得られるより情報量の多いソフトアラインメントを用いること。
大規模なRNNエキスパートからの知識蒸留が、大規模なDNNエキスパートからの蒸留を上回ることを実証すること。
知識転送における小規模モデルの性能に、モデル容量かアラインメント品質のどちらが主な制限要因であるかを調査すること。

提案手法

大規模かつ最先端のRNN音声モデルを知識源として訓練し、音声状態上のソフトアラインメント分布を生成する。
RNNの出力ポストリアリティをソフトラベルとして用い、RNNとDNNの出力分布間のカルバック・ライブラー（KL）ダイバージェンスを最小化することで、小規模DNNを訓練する。
RNNの出力分布に対して上位98%の確率閾値を適用し、低確率状態からのノイズを避けるために最も信頼性の高い予測に焦点を当てる。
ハードGMMアラインメントではなく、RNNのソフトアラインメントに基づいた交差エントロピー損失を用いて小規模DNNを訓練する。
開発セット（dev93）を早期停止の基準とし、最適化指標として交差エントロピー誤差（CSE）を用いる。
ハードGMM、ハードRNN、ソフトRNN、ソフトDNNアラインメントの複数の訓練ラベルを比較する。

実験結果

リサーチクエスチョン

RQ1大規模なRNNからの知識蒸留は、ASRタスクにおける小規模DNNの性能向上に寄与するか？
RQ2RNNからのソフトアラインメントを用いることで、DNNからのソフトアラインメントやGMMからのハードアラインメントを上回る性能が得られるか？
RQ3RNNのソフトアラインメント品質が、小規模DNNにおける一般化性能とWERに与える影響は何か？
RQ4知識転送における性能ボトルネックは、小規模DNNのモデル容量に起因するのか、それともソフトアラインメントラベルの品質に起因するのか？
RQ5RNNアラインメントにおける上位確率の選択が、最終的なモデル性能に与える影響は何か？

主な発見

大規模なRNNのソフトアラインメントに基づいて訓練された小規模DNNは、WSJ eval92セットで3.93%のWERを達成し、ハードGMMアラインメントで訓練されたベースライン（4.54%）に対して13%の相対的改善を示した。
ソフトRNNアラインメントに基づいて訓練された小規模DNNは、GMMアラインメントで訓練された大規模RNNモデル（1.27620）よりも低い交差エントロピー誤差（1.24617）を達成しており、dev93セットでの最適化が良好であることを示している。
ソフトRNNアラインメントに基づいて訓練された小規模DNNは、ソフトDNNアラインメントに基づく小規模DNN（4.27% WER）を上回った。これは、蒸留においてRNNのソフトアラインメントがDNNのそれよりも情報量が多いことを示唆している。
RNNアラインメントの上位1つの確率に基づいて訓練された小規模DNNは、GMMアラインメントよりも性能が悪く、ソフトラベルに複数の高確率状態を保持することが重要であることを示している。
ソフトRNNアラインメントに基づいて訓練された小規模DNNは、dev93セットにおいて大規模RNNモデルよりも低いCSEを示したが、これは過学習や分布シフトの可能性を示唆しているものの、WERは依然として優れていた。
結果から、RNNのソフトアラインメント品質が蒸留成功の鍵を握っており、この設定ではモデル容量が主なボトルネックではない可能性が示唆された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。