[论文解读] Compressing RNNs for IoT devices by 15-38x using Kronecker Products
本文提出使用克罗内克积(Kronecker Product, KP)压缩方法,将RNN模型大小压缩15–38倍,适用于物联网(IoT)设备部署,且精度损失极小。通过直接学习KP因子,并采用混合KP(HKP)方法恢复精度,该方法在8位量化下实现50倍压缩,达到当前最优压缩效果,同时保持快速推理速度,在5个基准测试中优于剪枝和低秩分解方法。
Recurrent Neural Networks (RNN) can be difficult to deploy on resource constrained devices due to their size.As a result, there is a need for compression techniques that can significantly compress RNNs without negatively impacting task accuracy. This paper introduces a method to compress RNNs for resource constrained environments using Kronecker product (KP). KPs can compress RNN layers by 15-38x with minimal accuracy loss. By quantizing the resulting models to 8-bits, we further push the compression factor to 50x. We show that KP can beat the task accuracy achieved by other state-of-the-art compression techniques across 5 benchmarks spanning 3 different applications, while simultaneously improving inference run-time. We show that the KP compression mechanism does introduce an accuracy loss, which can be mitigated by a proposed hybrid KP (HKP) approach. Our HKP algorithm provides fine-grained control over the compression ratio, enabling us to regain accuracy lost during compression by adding a small number of model parameters.
研究动机与目标
- 解决在内存和算力受限的物联网设备上部署大型RNN模型的挑战。
- 识别现有压缩技术(剪枝和低秩矩阵分解,LMF)的局限性——在不造成显著精度下降的情况下无法实现15倍以上的压缩。
- 提出一种基于克罗内克积(KPs)的新压缩方法,实现在保持模型精度的同时实现高倍率压缩。
- 引入一种混合KP(HKP)机制,通过增加少量可学习参数来恢复KP压缩过程中损失的精度。
- 证明KP压缩方法可提升推理速度,并在多个面向物联网的基准测试中实现最先进性能。
提出的方法
- 使用克罗内克积对RNN权重矩阵进行压缩,通过将其分解为更小的低秩矩阵,将参数量减少15–38倍。
- 在训练过程中直接学习KP因子,而非依赖事后分解,从而实现更优的近似效果和更高的灵活性。
- 对KP压缩后的模型应用8位量化,进一步将压缩比提升至50倍,适用于资源极度受限的设备。
- 提出一种混合KP(HKP)方法,通过增加少量可学习参数来恢复KP压缩过程中损失的精度。
- 设计一种损失函数,平衡压缩比与精度,实现对大小与性能之间权衡的细粒度控制。
- 使用标准优化方法(Adam)进行模型训练,配合学习率调度和权重衰减策略,同时监控压缩后矩阵的秩和条件数,以确保训练稳定性。
实验结果
研究问题
- RQ1基于克罗内克积的压缩方法是否能在RNN上实现15倍或更高的压缩比,且在物联网基准测试中精度损失可忽略?
- RQ2为何传统压缩方法(如剪枝和低秩分解)在RNN上难以在保持可接受精度的前提下实现高倍率压缩?
- RQ3KP压缩对RNN权重矩阵的秩和条件数有何影响?该影响是否可被缓解?
- RQ4混合KP(HKP)方法是否能有效恢复KP压缩过程中损失的精度,同时保持高倍率压缩?
- RQ5与基线方法及现有压缩技术相比,KP压缩是否能显著提升资源受限设备上的推理运行时间?
主要发现
- KP压缩在RNN层上实现了16–38倍的压缩比,精度损失极小,在所有五个测试基准上均优于剪枝和LMF方法。
- 混合KP(HKP)方法通过增加极少数参数,成功恢复了KP压缩过程中的精度损失,实现了对压缩-精度权衡的细粒度控制。
- 在8位量化下,总压缩比达到50倍,使模型可在仅2KB RAM和32KB Flash的物联网设备上成功部署。
- 在HAR1基准测试中,HKPLSTM在159.83 KB(15.9倍压缩)下达到91.025%的平均精度,优于LMF(90.61%)和剪枝(86.56%)在相近模型尺寸下的表现。
- 在KWS-LSTM基准测试中,HKPLSTM在26.38 KB(9.2倍压缩)下达到91.66%的平均精度,优于LMF(91.26%)和剪枝(87.25%)在相似模型尺寸下的表现。
- 推理运行时间显著降低——例如在KWS-LSTM上从26.8ms降至3.2ms——表明KP压缩不仅减小了模型大小,还显著加速了边缘设备上的推理过程。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。