QUICK REVIEW

[论文解读] SqueezeDet: Unified, Small, Low Power Fully Convolutional Neural Networks for Real-Time Object Detection for Autonomous Driving

BoRui Wu, Alvin Wan|arXiv (Cornell University)|Dec 4, 2016

Advanced Neural Network Applications参考文献 5被引用 92

一句话总结

SqueezeDet 是一种全卷积、小型且能效高效的神经网络，用于自动驾驶中的实时目标检测。它用统一的卷积检测头（ConvDet）替代传统的区域建议网络和全连接层，实现 57.2 FPS 的推理速度，模型大小仅为使用 VGG16 的 Faster R-CNN 的 1/30.4，速度提升 19.7 倍，能耗降低 35.2 倍，同时在 KITTI 数据集上保持了最先进水平的准确率。

ABSTRACT

Object detection is a crucial task for autonomous driving. In addition to requiring high accuracy to ensure safety, object detection for autonomous driving also requires real-time inference speed to guarantee prompt vehicle control, as well as small model size and energy efficiency to enable embedded system deployment. In this work, we propose SqueezeDet, a fully convolutional neural network for object detection that aims to simultaneously satisfy all of the above constraints. In our network, we use convolutional layers not only to extract feature maps but also as the output layer to compute bounding boxes and class probabilities. The detection pipeline of our model only contains a single forward pass of a neural network, thus it is extremely fast. Our model is fully-convolutional, which leads to a small model size and better energy efficiency. While achieving the same accuracy as previous baselines, our model is 30.4x smaller, 19.7x faster, and consumes 35.2x lower energy. The code is open-sourced at \url{https://github.com/BichenWuUCB/squeezeDet}.

研究动机与目标

解决嵌入式系统中自动驾驶对实时、高精度、小型化和低功耗目标检测器的需求。
克服现有两阶段检测器（如 Faster R-CNN）在模型大小、推理速度和能耗方面的局限性。
设计一种全卷积架构，将特征提取与检测统一到一次前向传播中，以提升速度与效率。
在显著降低计算与内存开销的同时，于 KITTI 基准上实现高精度。
实现基于深度学习的目标检测在自动驾驶中使用的低功耗嵌入式处理器上的实际部署。

提出的方法

提出一种基于 SqueezeNet 作为主干网络的全卷积检测流程，用于特征提取。
引入 ConvDet，一种专用的卷积层，可直接从特征图预测边界框和类别概率，替代区域建议网络和全连接层。
通过单次前向传播实现端到端的目标检测，消除区域建议生成的需要，从而降低延迟。
通过用深度可分离卷积替代全连接层，并减少激活张量的内存占用，优化模型大小与能效。
应用数据增强与迁移学习，在 KITTI 数据集上微调模型，以提升检测精度。
开展广泛的架构探索，评估输入分辨率、锚框数量与模型架构在精度、浮点运算量（FLOPs）、速度与内存占用之间的权衡。

实验结果

研究问题

RQ1全卷积网络是否能在保持高精度的同时实现自动驾驶目标检测的实时推理速度？
RQ2在不牺牲检测性能的前提下，模型大小与能耗最多可降低多少？
RQ3用统一的卷积检测头（ConvDet）替代全连接层与区域建议网络，对速度、精度与效率有何影响？
RQ4在精度、FLOPs 与内存使用方面，输入分辨率、锚框数量与模型架构之间存在何种权衡？
RQ5像 SqueezeDet 这样小型高效的模型，是否能在 KITTI 基准上实现与更大、更复杂模型相当的最先进性能？

主要发现

SqueezeDet 在 TITAN X GPU 上以 1242x375 的输入分辨率实现 57.2 FPS 的推理速度，超过实时性能（30 FPS）近两倍。
模型大小仅为使用 VGG16 的 Faster R-CNN 的 1/30.4，总模型大小仅为 7.9 MB，比使用 AlexNet 的 Faster R-CNN 小 30 倍。
每张图像仅消耗 1.4 J 能量，比 Faster R-CNN 低 84 倍，实现 35.2 倍的能耗降低。
在 KITTI 数据集上，模型的平均精度均值（mAP）达到 80.4%，在所有三类难度的骑行人检测中均优于其他模型。
降低输入图像分辨率可使推理速度提升至 92.5 FPS，mAP 仅下降 3%，表明存在有利的速度-精度权衡。
增加锚框数量仅适度增加 FLOPs 与内存占用，但导致 mAP 下降，表明检测质量提升呈现边际递减效应。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。