[论文解读] Learning both Weights and Connections for Efficient Neural Networks
该论文提出一种三阶段方法,通过剪枝低权重连接并重新训练,同时学习最优的网络权重和连接结构,在 ImageNet 上实现 AlexNet 和 VGG-16 分别高达 9× 和 13× 的参数压缩,且准确率无损失。
Neural networks are both computationally intensive and memory intensive, making them difficult to deploy on embedded systems. Also, conventional networks fix the architecture before training starts; as a result, training cannot improve the architecture. To address these limitations, we describe a method to reduce the storage and computation required by neural networks by an order of magnitude without affecting their accuracy by learning only the important connections. Our method prunes redundant connections using a three-step method. First, we train the network to learn which connections are important. Next, we prune the unimportant connections. Finally, we retrain the network to fine tune the weights of the remaining connections. On the ImageNet dataset, our method reduced the number of parameters of AlexNet by a factor of 9x, from 61 million to 6.7 million, without incurring accuracy loss. Similar experiments with VGG-16 found that the number of parameters can be reduced by 13x, from 138 million to 10.3 million, again with no loss of accuracy.
研究动机与目标
- 解决大型神经网络在移动设备和嵌入式系统部署时的高计算与内存开销问题。
- 通过在训练过程中实现架构学习,克服传统训练中固定架构的局限性。
- 在不牺牲准确率的前提下减小模型尺寸与能耗,尤其通过最小化昂贵的片外 DRAM 访问来实现。
- 通过使模型更小、更内存高效,实现深度神经网络在移动设备上的高效部署。
- 证明剪枝不仅可用于模型压缩,还可通过寻找最优网络容量来提升泛化能力。
提出的方法
- 以常规方式训练一个密集神经网络,通过标准反向传播学习重要连接。
- 剪枝权重低于全局或层特定幅度阈值的连接,将密集层转换为稀疏层。
- 使用 L2 正则化对剪枝后的稀疏网络进行重训练,微调剩余权重并恢复准确率。
- 迭代重复剪枝与重训练过程,进一步减小模型尺寸并提升稀疏度。
- 通过每层的敏感性分析设置独立的剪枝阈值,对更敏感的层(如第一卷积层)采用更温和的剪枝策略。
- 将剪枝后的权重以压缩索引的稀疏矩阵形式存储(全连接层使用 5 位,卷积层使用 8 位),将存储开销降低至 15.6%。
实验结果
研究问题
- RQ1我们能否通过剪枝低权重连接来减少神经网络参数,而不会降低准确率?
- RQ2与单步剪枝相比,迭代剪枝与重训练是否能带来更高的模型效率与准确率?
- RQ3卷积层与全连接层是否都能被有效剪枝,同时保持性能?
- RQ4剪枝如何影响网络权重的分布以及模型的泛化能力?
- RQ5稀疏性在多大程度上可减少内存访问能耗,特别是通过实现权重的片上存储?
主要发现
- AlexNet 的参数从 6100 万减少至 670 万(压缩 9×),在 ImageNet 上 Top-1 准确率无损失。
- VGG-16 的参数从 1.38 亿减少至 1030 万(压缩 13×),同时保持相同准确率。
- 迭代剪枝实现了高达 9× 的压缩率且无准确率下降,部分剪枝级别下准确率甚至略有提升,归因于过拟合减少。
- 第一卷积层对剪枝最敏感,因其输入通道较少、冗余度较低,需谨慎设置阈值。
- 剪枝与重训练后,权重分布呈现双峰化且更分散,表明连接更强、更清晰。
- 采用压缩索引的稀疏存储显著降低了内存占用,实现了片上存储,避免了昂贵的片外 DRAM 访问。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。