[论文解读] Memory Bounded Deep Convolutional Networks
本文提出了一种针对深度卷积神经网络(CNNs)的稀疏性诱导正则化方法,通过在卷积层和全连接层中鼓励稀疏连接,有效降低模型大小和内存占用。采用随机梯度下降训练,该方法在仅造成轻微准确率损失的情况下,将内存使用量最高减少至原来的1/4(例如,在AlexNet上从233 MB降至58 MB),从而实现资源受限设备上的高效部署,并支持内存高效的集成模型构建。
In this work, we investigate the use of sparsity-inducing regularizers during training of Convolution Neural Networks (CNNs). These regularizers encourage that fewer connections in the convolution and fully connected layers take non-zero values and in effect result in sparse connectivity between hidden units in the deep network. This in turn reduces the memory and runtime cost involved in deploying the learned CNNs. We show that training with such regularization can still be performed using stochastic gradient descent implying that it can be used easily in existing codebases. Experimental evaluation of our approach on MNIST, CIFAR, and ImageNet datasets shows that our regularizers can result in dramatic reductions in memory requirements. For instance, when applied on AlexNet, our method can reduce the memory consumption by a factor of four with minimal loss in accuracy.
研究动机与目标
- 解决在移动平台等资源受限设备上部署大型深度CNN时面临的高内存和高运行时开销问题。
- 通过在卷积层和全连接层中促进稀疏连接,降低模型复杂度,同时不损失准确率。
- 在固定内存预算下,实现高准确率深度网络集成模型的构建。
- 开发一种与标准随机梯度下降训练流程兼容的正则化方法。
- 在MNIST、CIFAR-10和ImageNet数据集上,实证验证模型稀疏性、内存使用量与分类准确率之间的权衡关系。
提出的方法
- 在CNN训练过程中应用稀疏性诱导正则化项(特别是ℓ₀和ℓ₁惩罚项),以促使非零权重最小化。
- 采用贪心搜索策略,确定满足目标内存预算的逐层稀疏性分布。
- 通过修改随机梯度下降中的权重更新方式实现正则化,确保与现有深度学习框架的兼容性。
- 对每层施加ℓ₀约束,以强制实现期望的非零参数数量,从而对模型大小实现精确控制。
- 采用装袋法(bootstrap重采样)训练多个稀疏模型构成集成,每个模型均受共享内存预算的约束。
- 利用存储格式优化(附录A)基于稀疏性和数据类型估算实际内存使用量。
实验结果
研究问题
- RQ1稀疏性诱导正则化是否能显著减少训练后CNN的内存占用,同时保持较低的准确率损失?
- RQ2与传统的权重衰减或网络剪枝方法相比,稀疏性正则化在内存效率和准确率方面表现如何?
- RQ3在固定内存预算下,稀疏模型能否被有效用于构建集成模型,从而提升泛化能力?
- RQ4在训练数据有限的情况下,稀疏性对模型性能有何影响,特别是在泛化能力方面?
- RQ5在标准视觉基准测试中,稀疏模型在减少参数数量和内存使用量的同时,能在多大程度上保持高准确率?
主要发现
- 在ImageNet数据集上,该方法将内存使用量从基线的233 MB降低至58 MB(稀疏模型),top-1准确率仅下降1.7%(从59.3%降至55.60%)。
- 对于AlexNet,该方法实现了内存消耗最高4倍的减少(从233 MB降至58 MB),同时保持了具有竞争力的准确率。
- 在CIFAR-10上,基于固定参数预算训练的稀疏模型集成,其准确率高于单个密集模型,其中3个模型的集成达到了77.40%的top-1准确率。
- 随着训练数据量减少,稀疏模型由于泛化能力更强而优于密集模型,证实了稀疏性具有正则化优势。
- 该方法实现了内存高效的集成:例如,一个包含3个模型的集成,总非零参数数为143,540,准确率达到77.40%,表明稀疏性使在固定内存预算下可容纳更多模型成为可能。
- 通过ℓ₀约束实现的稀疏性正则化,使模型的非零参数数量最多减少70%,同时保持高性能,尤其在数据稀缺条件下表现更优。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。