[论文解读] The Power of Sparsity in Convolutional Neural Networks
本论文在 CNN 的卷积滤波器之间引入稀疏随机连接方法,显示在高压缩下可达到与密集网络相同或更好的准确性,并探索增量训练以使连接随时间变密。
Deep convolutional networks are well-known for their high computational and memory demands. Given limited resources, how does one design a network that balances its size, training time, and prediction accuracy? A surprisingly effective approach to trade accuracy for size and speed is to simply reduce the number of channels in each convolutional layer by a fixed fraction and retrain the network. In many cases this leads to significantly smaller networks with only minimal changes to accuracy. In this paper, we take a step further by empirically examining a strategy for deactivating connections between filters in convolutional layers in a way that allows us to harvest savings both in run-time and memory for many network architectures. More specifically, we generalize 2D convolution to use a channel-wise sparse connection structure and show that this leads to significantly better results than the baseline approach for large networks including VGG and Inception V3.
研究动机与目标
- 动机:在资源受限设备上部署时,降低 CNN 的大小和计算量。
- 研究固定的稀疏通道级连接是否可以替代密集连接而不带来显著的准确性损失。
- 在多种架构下,在不同压缩率下将稀疏随机连接与深度乘子进行比较。
- 探讨增量训练,即逐步激活连接以加速训练并实现扩展。
- 提供关于通过固定稀疏模式进行硬件感知网络压缩的实用指南。
提出的方法
- 将2D卷积推广为跨特征图具有固定空间连接性的通道级稀疏连接结构。
- 定义稀疏随机连接,其中每个输出通道仅连接到输入通道的一小部分,同时保持空间卷积结构。
- 通过从非常稀疏的网络开始并在训练过程中逐步增密连接来引入增量训练。
- 在 MNIST、CIFAR-10 和 ImageNet(Inception-V3 和 VGG-16n)上,在多种压缩水平下比较稀疏随机连接与深度乘子。
- 以参数数(Params)和乘加(MAdds)为主要度量,ImageNet 实验的准确率以 P@1 表示。
实验结果
研究问题
- RQ1在高压缩下,CNN 中固定的通道级稀疏连接模式是否能在准确性上与密集结构相媲美?
- RQ2就参数效率和准确性而言,稀疏随机连接在不同规模的网络中相对于深度乘子有何差异?
- RQ3在训练过程中增密稀疏连接的增量训练是否能加速训练同时保持或提升最终准确性?
- RQ4在使用固定稀疏连接模式时,对硬件友好型 CNN 设计的实际影响是什么?
主要发现
- 稀疏随机连接在相同参数预算下通常与密集卷积的准确性相当或甚至更好,尤其在高压缩下。
- 在 Inception-V3 上,稀疏网络显著减少参数,并在广泛的稀疏度水平范围内保持具有竞争力的准确性(例如在 5.70 B MAdds 和 22 M Params 时达到 77% P@1)。
- 对于 Inception-V3,混合配置(例如 0.50/0.01 稀疏度)在 90k 参数和 43.0 MAdds 时达到 40.3 P@1,而更高稀疏度(0.003)在 158k 参数和 82.0 MAdds 时达到 46.1 P@1。
- 在 ImageNet 的 Inception-V3 和 VGG-16n 上,稀疏模式在保持可比计算预算的同时实现参数的显著减少(例如从数千万降至数十万),并保持或超过密集模型的准确性。
- 增量训练,即随时间添加连接,使得稀疏网络在某些设定下赶上甚至超过完整密集模型,并由于初期计算减少而加速早期训练阶段。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。