[论文解读] SqueezeNet: AlexNet-level accuracy with 50x fewer parameters and <0.5MB model size
SqueezeNet 在 ImageNet 上以 50x 少的参数达到 AlexNet 级别的准确度,模型压缩到不足 0.5MB。该论文还分析了紧凑 CNN 的微观与宏观架构设计空间。
Recent research on deep neural networks has focused primarily on improving accuracy. For a given accuracy level, it is typically possible to identify multiple DNN architectures that achieve that accuracy level. With equivalent accuracy, smaller DNN architectures offer at least three advantages: (1) Smaller DNNs require less communication across servers during distributed training. (2) Smaller DNNs require less bandwidth to export a new model from the cloud to an autonomous car. (3) Smaller DNNs are more feasible to deploy on FPGAs and other hardware with limited memory. To provide all of these advantages, we propose a small DNN architecture called SqueezeNet. SqueezeNet achieves AlexNet-level accuracy on ImageNet with 50x fewer parameters. Additionally, with model compression techniques we are able to compress SqueezeNet to less than 0.5MB (510x smaller than AlexNet). The SqueezeNet architecture is available for download here: https://github.com/DeepScale/SqueezeNet
研究动机与目标
- 识别在 ImageNet 上显著减少参数数量且保持 AlexNet 级别准确性的 CNN 架构。
- 提出结构性构建模块(Fire 模块)和降低参数数量的设计策略。
- 评估压缩潜力并理解微观/宏观架构对大小与准确性的影响。
- 探索设计空间,提供紧凑型 CNN 设计的原则性指导。
提出的方法
- 引入 Fire 模块,作为一个挤压-扩展块,包含 1x1 的挤压层再通向扩展层(1x1 和 3x3)。
- 应用设计策略:用 1x1 过滤器替代 3x3,利用挤压层将进入 3x3 过滤器的输入通道数降低,以及 延迟下采样以维持较大的激活图。
- 构建包含八个 Fire 模块、后期池化的 SqueezeNet 架构,并移除全连接层。
- 使用 ReLU 激活训练,在 Fire9 之后使用 dropout,并采用特定的学习率调度;将扩展模块实现为两个并行卷积层(1x1 和 3x3)拼接。
- 与 AlexNet 基线和先前的压缩方法进行对比,比较模型大小和准确性;应用 Deep Compression 以实现超小模型。
实验结果
研究问题
- RQ1参数显著减少的 CNN 是否能够在 ImageNet 上达到 AlexNet 级别的准确性?
- RQ2哪些架构选择(Fire 模块、挤压比、1x1 与 3x3 的混合、下采样时间表)在不牺牲准确性的前提下最大程度降低参数数量?
- RQ3事后压缩(量化/剪枝)对极紧凑的 CNN,如 SqueezeNet,有何影响?
- RQ4宏观结构修改(旁路连接)对紧凑 CNN 的准确性和大小有何影响?
主要发现
- SqueezeNet 在 ImageNet 上实现了参数量减少 50 倍,同时达到 AlexNet 级别的 Top-1/Top-5 准确率(57.5% / 80.3%)。
- 使用 Deep Compression(8 位、6 位)时,SqueezeNet 可压缩至 0.66MB(363x)和 0.47MB(510x),同时保持或超过基线准确率。
- 宏观架构旁路连接(简单/绕过)在不增大模型大小的情况下将 Top-1 提升最多约 2.9 个点。
- 微观架构探索显示在进行 SR 与 3x3 混合的调整后,Top-5 在 19MB 时达到 86.0%;4.8MB 的基线达到的是 AlexNet 级别。
- SqueezeNet 模型尺寸在 FPGA/嵌入式部署和空中更新方面变得极具优势。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。