QUICK REVIEW

[論文レビュー] On the Compression of Recurrent Neural Networks with an Application to LVCSR acoustic modeling for Embedded Speech Recognition

Rohit Prabhavalkar, Ouais Alsharif|arXiv (Cornell University)|Mar 25, 2016

Speech Recognition and Synthesis参考文献 27被引用数 43

ひとこと要約

本論文は、埋め込み型音声認識を対象として、再帰的ニューラルネットワーク（RNN）のための連合特異値分解（SVD）に基づく圧縮技術を提案する。再帰的および層間の重み行列を同時に因子分解することにより、モデルサイズを元の1/3に削減し、精度の低下は最小限に抑えられ、12.9% WERの310万パラメータモデルを実現した。これはベースラインより僅か0.5%悪化にとどまる。

ABSTRACT

We study the problem of compressing recurrent neural networks (RNNs). In particular, we focus on the compression of RNN acoustic models, which are motivated by the goal of building compact and accurate speech recognition systems which can be run efficiently on mobile devices. In this work, we present a technique for general recurrent model compression that jointly compresses both recurrent and non-recurrent inter-layer weight matrices. We find that the proposed technique allows us to reduce the size of our Long Short-Term Memory (LSTM) acoustic model to a third of its original size with negligible loss in accuracy.

研究の動機と目的

メモリおよび計算リソースが制限されたモバイルデバイスに、大規模で高精度なRNN音声認識モデルをデプロイする課題に対処すること。
オンデバイス音声認識のため、精度の著しい低下を伴わずにモデルサイズと計算コストを削減すること。
既存の行列因子分解技術を一般化し、RNNにおける再帰的および非再帰的両方の重み行列を同時に圧縮すること。
実世界の埋め込み型ASR環境において、SVDに基づく圧縮の有効性を評価すること。
モデル圧縮と量子化を通じて、モバイルデバイス上で効率的かつリアルタイムの音声認識を可能にすること。

提案手法

各RNN層において、再帰的重み行列 $W^{l}_{h}$ および層間重み行列 $W^{l-1}_{x}$ に切り捨てられた特異値分解（SVD）を適用する。
各層において、$W^{l}_{h}$ のSVDにおける説明される分散の割合 $\tau$ を保持することで、射影行列のランク $r^{l}$ を決定する。式（7）を用いる。
圧縮モデルは、ドメイン内データ上で接続主義的時系列分類（CTC）および逐次最小ベイズリスク（sMBR）基準を用いて微調整される。
本手法は、Xueら[8]の先行研究を拡張し、再帰的および層間の重みを別々に扱うのでなく、同時に圧縮することを可能にする。
Googleトラフィックから得た大規模かつマルチスタイルのダクティルデータセット上で学習されたLSTM音声認識モデルに、本手法を適用する。
モデル圧縮と重み量子化を組み合わせることで、埋め込みデプロイメントに向けたメモリおよび計算要件をさらに削減する。

実験結果

リサーチクエスチョン

RQ1RNNにおける再帰的および層間の重み行列を連合SVDで圧縮することで、モデルサイズを顕著に削減しつつ、精度の低下を最小限に抑えられるか？
RQ2説明される分散のしきい値 $\tau$ の選択が、モデル圧縮と認識精度のトレードオフにどのように影響するか？
RQ3提案された圧縮技術により、モバイルハードウェア上でリアルタイムのオンデバイス音声認識が可能になるか？
RQ4再帰的および非再帰的重みの連合圧縮は、個々の重み行列を別々に圧縮する手法を上回る性能を示すか？
RQ5LSTM音声認識モデルを元のサイズの1/3に圧縮した場合の性能劣化はどの程度か？

主な発見

モデルは元のサイズの1/3に圧縮され（970万パラメータから310万パラメータに）、語誤り率（WER）は12.4%から12.9%に0.5%上昇するにとどまる。
$\tau = 0.6$ の場合、310万パラメータのモデルが12.9% WERを達成し、ベースラインから310万パラメータの削減と67%のサイズ削減が実現された。
$\tau \geq 0.7$ の場合、WERはベースラインから0.3%以内に収まり、中程度の圧縮レベルでも精度の低下は顕著でないことが示された。
$\tau \leq 0.5$ の場合、性能が著しく劣化し、$\tau = 0.5$ ではWERが13.2%に上昇し、モデル忠実度の急低下が確認された。
同じパラメータ予算下でも、各層ごとの分散に基づくランク選択により、等ランク圧縮方式を上回る性能が得られた。
重み量子化と組み合わせることで、最近のモバイルデバイス上でも、リアルタイムをはるかに上回る速度で圧縮モデルが実行可能となり、実用的なオンデバイスデプロイメントが可能となった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。