[论文解读] Compressing Neural Networks with the Hashing Trick
本文提出 HashedNets,一种神经网络压缩技术,通过哈希函数将连接分组到共享权重桶中,大幅减少模型大小,同时仅造成极小的精度损失。通过参数共享实现‘虚拟’连接,HashedNets 在 MNIST 上实现高达 16 倍的模型膨胀,测试误差仅为 1.61%,在高精度压缩率下优于低秩分解和边移除基线方法。
As deep nets are increasingly used in applications suited for mobile devices, a fundamental dilemma becomes apparent: the trend in deep learning is to grow models to absorb ever-increasing data set sizes; however mobile devices are designed with very little memory and cannot store such large models. We present a novel network architecture, HashedNets, that exploits inherent redundancy in neural networks to achieve drastic reductions in model sizes. HashedNets uses a low-cost hash function to randomly group connection weights into hash buckets, and all connections within the same hash bucket share a single parameter value. These parameters are tuned to adjust to the HashedNets weight sharing architecture with standard backprop during training. Our hashing procedure introduces no additional memory overhead, and we demonstrate on several benchmark data sets that HashedNets shrink the storage requirements of neural networks substantially while mostly preserving generalization performance.
研究动机与目标
- 解决在 RAM 有限的移动设备和嵌入式设备上部署大型深度神经网络时面临的日益严重的内存瓶颈问题。
- 利用神经网络权重中的固有冗余性,在不造成显著性能下降的前提下减少模型大小。
- 开发一种内存高效的压缩方法,且在训练或推理过程中不引入额外内存开销。
- 证明通过哈希实现的参数共享与网络膨胀结合可提升泛化能力。
- 通过实现高精度压缩与极小精度损失,使大型模型能够在资源受限设备上部署。
提出的方法
- 应用随机哈希函数将神经网络连接映射到共享权重桶中,同一桶内的所有连接使用相同的参数值。
- 使用标准反向传播训练共享参数,使梯度能够同时更新桶内所有连接。
- 通过增加虚拟隐藏节点数量,同时保持实际参数数量固定,引入网络膨胀机制。
- 保持与标准深度学习技术(如 Dropout、ReLU 激活函数和权重稀疏性)的兼容性。
- 固定实际参数数量(K^ℓ),通过改变虚拟节点数量(n^ℓ)来研究扩展对泛化性能的影响。
- 优化哈希过程以最小化冲突,并在训练期间保持梯度信号的多样性。
实验结果
研究问题
- RQ1通过哈希实现的参数共享是否能显著减少神经网络模型大小,同时对测试精度影响极小?
- RQ2在固定内存约束下,通过虚拟连接实现的网络膨胀如何影响泛化性能?
- RQ3在高精度压缩场景下,基于哈希的压缩方法是否优于低秩分解和边移除方法?
- RQ4在不增加实际参数数量的前提下,最优的扩展因子(以虚拟节点数计)是多少,能最大化性能?
- RQ5该方法在不同基准数据集和网络架构上的可扩展性如何?
主要发现
- HashedNets 在 MNIST 上实现高达 16 倍的虚拟网络膨胀,测试误差仅为 1.61%,相比标准网络相对误差降低 50%。
- 在压缩因子为 1/64 时,HashedNets 在全部八个基准数据集上的表现均优于低秩分解和边移除方法,尤其在极端压缩场景下优势显著。
- 即使每虚拟参数仅存储 0.5 比特信息,该方法仍能保持高性能,证明其具备极强的压缩效率。
- 最佳性能出现在 8 倍至 16 倍的膨胀因子之间,超过此范围后进一步扩展会导致测试误差上升,原因在于哈希冲突过多。
- 与低秩和边移除基线相比,HashedNets 在压缩方面表现出更强的鲁棒性,尤其在极高压缩率下。
- 该方法不引入额外内存开销,且与 Dropout 和权重稀疏性等标准正则化技术完全兼容。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。