QUICK REVIEW

[论文解读] Compressing RNNs for IoT devices by 15-38x using Kronecker Products

Urmish Thakker, Jesse Beu|arXiv (Cornell University)|Jun 7, 2019

Advanced Neural Network Applications参考文献 54被引用 30

一句话总结

本文提出使用克罗内克积（Kronecker Product, KP）压缩方法，将RNN模型大小压缩15–38倍，适用于物联网（IoT）设备部署，且精度损失极小。通过直接学习KP因子，并采用混合KP（HKP）方法恢复精度，该方法在8位量化下实现50倍压缩，达到当前最优压缩效果，同时保持快速推理速度，在5个基准测试中优于剪枝和低秩分解方法。

ABSTRACT

Recurrent Neural Networks (RNN) can be difficult to deploy on resource constrained devices due to their size.As a result, there is a need for compression techniques that can significantly compress RNNs without negatively impacting task accuracy. This paper introduces a method to compress RNNs for resource constrained environments using Kronecker product (KP). KPs can compress RNN layers by 15-38x with minimal accuracy loss. By quantizing the resulting models to 8-bits, we further push the compression factor to 50x. We show that KP can beat the task accuracy achieved by other state-of-the-art compression techniques across 5 benchmarks spanning 3 different applications, while simultaneously improving inference run-time. We show that the KP compression mechanism does introduce an accuracy loss, which can be mitigated by a proposed hybrid KP (HKP) approach. Our HKP algorithm provides fine-grained control over the compression ratio, enabling us to regain accuracy lost during compression by adding a small number of model parameters.

研究动机与目标

解决在内存和算力受限的物联网设备上部署大型RNN模型的挑战。
识别现有压缩技术（剪枝和低秩矩阵分解，LMF）的局限性——在不造成显著精度下降的情况下无法实现15倍以上的压缩。
提出一种基于克罗内克积（KPs）的新压缩方法，实现在保持模型精度的同时实现高倍率压缩。
引入一种混合KP（HKP）机制，通过增加少量可学习参数来恢复KP压缩过程中损失的精度。
证明KP压缩方法可提升推理速度，并在多个面向物联网的基准测试中实现最先进性能。

提出的方法

使用克罗内克积对RNN权重矩阵进行压缩，通过将其分解为更小的低秩矩阵，将参数量减少15–38倍。
在训练过程中直接学习KP因子，而非依赖事后分解，从而实现更优的近似效果和更高的灵活性。
对KP压缩后的模型应用8位量化，进一步将压缩比提升至50倍，适用于资源极度受限的设备。
提出一种混合KP（HKP）方法，通过增加少量可学习参数来恢复KP压缩过程中损失的精度。
设计一种损失函数，平衡压缩比与精度，实现对大小与性能之间权衡的细粒度控制。
使用标准优化方法（Adam）进行模型训练，配合学习率调度和权重衰减策略，同时监控压缩后矩阵的秩和条件数，以确保训练稳定性。

实验结果

研究问题

RQ1基于克罗内克积的压缩方法是否能在RNN上实现15倍或更高的压缩比，且在物联网基准测试中精度损失可忽略？
RQ2为何传统压缩方法（如剪枝和低秩分解）在RNN上难以在保持可接受精度的前提下实现高倍率压缩？
RQ3KP压缩对RNN权重矩阵的秩和条件数有何影响？该影响是否可被缓解？
RQ4混合KP（HKP）方法是否能有效恢复KP压缩过程中损失的精度，同时保持高倍率压缩？
RQ5与基线方法及现有压缩技术相比，KP压缩是否能显著提升资源受限设备上的推理运行时间？

主要发现

KP压缩在RNN层上实现了16–38倍的压缩比，精度损失极小，在所有五个测试基准上均优于剪枝和LMF方法。
混合KP（HKP）方法通过增加极少数参数，成功恢复了KP压缩过程中的精度损失，实现了对压缩-精度权衡的细粒度控制。
在8位量化下，总压缩比达到50倍，使模型可在仅2KB RAM和32KB Flash的物联网设备上成功部署。
在HAR1基准测试中，HKPLSTM在159.83 KB（15.9倍压缩）下达到91.025%的平均精度，优于LMF（90.61%）和剪枝（86.56%）在相近模型尺寸下的表现。
在KWS-LSTM基准测试中，HKPLSTM在26.38 KB（9.2倍压缩）下达到91.66%的平均精度，优于LMF（91.26%）和剪枝（87.25%）在相似模型尺寸下的表现。
推理运行时间显著降低——例如在KWS-LSTM上从26.8ms降至3.2ms——表明KP压缩不仅减小了模型大小，还显著加速了边缘设备上的推理过程。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。