QUICK REVIEW

[論文レビュー] Compressing RNNs for IoT devices by 15-38x using Kronecker Products

Urmish Thakker, Jesse Beu|arXiv (Cornell University)|Jun 7, 2019

Advanced Neural Network Applications参考文献 54被引用数 30

ひとこと要約

本論文は、IoTデバイスへのデプロイに適したRNNモデルのサイズを15–38倍に圧縮するためのKronecker積（KP）圧縮を提案する。精度の損失は最小限に抑えられる。KP要因を直接学習し、精度の回復を図るハイブリッドKP（HKP）アプローチを用いることで、最先端の圧縮性能を達成。8ビット量子化により圧縮比は50倍にまで向上し、高速な推論を維持しながら、5つのベンチマークにおいてプルーニングや低ランク因子分解を上回る性能を発揮する。

ABSTRACT

Recurrent Neural Networks (RNN) can be difficult to deploy on resource constrained devices due to their size.As a result, there is a need for compression techniques that can significantly compress RNNs without negatively impacting task accuracy. This paper introduces a method to compress RNNs for resource constrained environments using Kronecker product (KP). KPs can compress RNN layers by 15-38x with minimal accuracy loss. By quantizing the resulting models to 8-bits, we further push the compression factor to 50x. We show that KP can beat the task accuracy achieved by other state-of-the-art compression techniques across 5 benchmarks spanning 3 different applications, while simultaneously improving inference run-time. We show that the KP compression mechanism does introduce an accuracy loss, which can be mitigated by a proposed hybrid KP (HKP) approach. Our HKP algorithm provides fine-grained control over the compression ratio, enabling us to regain accuracy lost during compression by adding a small number of model parameters.

研究の動機と目的

制限されたメモリと処理能力を有するリソース制約の厳しいIoTデバイスに大規模なRNNをデプロイする課題に対処する。
プルーニングや低ランク行列因子分解（LMF）といった既存の圧縮技術の限界を特定する。これらは15倍の圧縮を達成する際、顕著な精度の低下を伴う。
Kronecker積（KPs）を用いた新しい圧縮手法を開発し、高い圧縮比を維持しながらモデル精度を保持する。
KP圧縮による精度損失を、少数のパラメータを効果的に追加することで回復するハイブリッドKP（HKP）メカニズムを導入する。
KPベースの圧縮が推論速度を向上させ、複数のIoT指向ベンチマークで最先端の性能を達成することを実証する。

提案手法

RNN重み行列をKronecker積で因子分解し、より小さな低ランク行列に分解することで、パラメータ数を15–38倍に圧縮する。
トレーニング中に直接KP要因を学習する。事後的分解に依存するのではなく、より良い近似と柔軟性を実現する。
KP圧縮モデルに8ビット量子化を適用し、さらに圧縮比を50倍にまで向上させ、超制限されたデバイス向けにモデルサイズを削減する。
KP圧縮による精度損失を、少数の学習済みパラメータを追加することで回復するハイブリッドKP（HKP）アプローチを提案する。
圧縮比と精度のバランスを取る損失関数を用い、サイズと性能のトレードオフを細かく制御可能にする。
学習率スケジュールと重み減衰を伴う標準的な最適化（Adam）を用いてモデルを訓練する。同時に、圧縮された行列のランクと条件数を監視し、安定性を確保する。

実験結果

リサーチクエスチョン

RQ1Kronecker積ベースの圧縮は、IoTベンチマークで顕著な精度損失なしに、RNNに対して15倍以上の圧縮を達成できるか？
RQ2従来の圧縮手法（プルーニングや低ランク因子分解）が、RNNに対して高い圧縮比と許容可能な精度を同時に達成できない理由は何か？
RQ3KP圧縮がRNN重み行列のランクと条件数に与える影響は何か？その影響は緩和可能か？
RQ4ハイブリッドKP（HKP）アプローチは、KP圧縮による精度損失を効果的に回復できるか？また、高い圧縮比を維持できるか？
RQ5KPベースの圧縮は、ベースラインおよび既存の圧縮技術と比較して、リソース制約の厳しいデバイスにおける推論実行時間の短縮に寄与するか？

主な発見

KP圧縮により、RNNレイヤーで16–38倍の圧縮が達成され、テストされた5つのベンチマークすべてでプルーニングやLMFを上回る性能を発揮。
ハイブリッドKP（HKP）手法により、KP圧縮による精度損失が、少数のパラメータ追加で回復され、圧縮-精度トレードオフの細分化制御が可能になった。
8ビット量子化を適用した場合、総圧縮比は50倍に達し、2KB RAMおよび32KB Flashを備えたIoTデバイスへのデプロイが可能になった。
HAR1ベンチマークでは、HKPLSTMが159.83 KB（15.9倍圧縮）で平均91.025%の精度を達成。LMF（90.61%）およびプルーニング（86.56%）を上回った。
KWS-LSTMベンチマークでは、HKPLSTMが26.38 KB（9.2倍圧縮）で平均91.66%の精度を達成。LMF（91.26%）およびプルーニング（87.25%）を上回った。
推論実行時間は顕著に短縮された。例として、KWS-LSTMでは26.8msから3.2msに短縮され、KP圧縮がサイズ削減に加え、エッジデバイスにおける推論速度の向上にも寄与することが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。