[论文解读] PVANET: Deep but Lightweight Neural Networks for Real-time Object Detection
PVANET 设计了一种深层、窄型的特征提取器,结合 C.ReLU、Inception 和 HyperNet 启发的多尺度融合,在 VOC 上实现最先进的 mAP,同时显著降低计算量,支持实时检测。
This paper presents how we can achieve the state-of-the-art accuracy in multi-category object detection task while minimizing the computational cost by adapting and combining recent technical innovations. Following the common pipeline of "CNN feature extraction + region proposal + RoI classification", we mainly redesign the feature extraction part, since region proposal part is not computationally expensive and classification part can be efficiently compressed with common techniques like truncated SVD. Our design principle is "less channels with more layers" and adoption of some building blocks including concatenated ReLU, Inception, and HyperNet. The designed network is deep and thin and trained with the help of batch normalization, residual connections, and learning rate scheduling based on plateau detection. We obtained solid results on well-known object detection benchmarks: 83.8% mAP (mean average precision) on VOC2007 and 82.5% mAP on VOC2012 (2nd place), while taking only 750ms/image on Intel i7-6700K CPU with a single core and 46ms/image on NVIDIA Titan X GPU. Theoretically, our network requires only 12.3% of the computational cost compared to ResNet-101, the winner on VOC2012.
研究动机与目标
- 推动在不牺牲精度的前提下降低目标检测的计算成本。
- 设计一个轻量但深层的特征提取器,适用于 Faster R-CNN 框架。
- 探索构建模块(C.ReLU、Inception、HyperNet)以在速度和性能之间取得平衡。
- 展示在 VOC 基准测试上实现实时性能并具备竞争力的 mAP。
提出的方法
- 在保持区域提议和 RoI 分类高效的同时,重新设计特征提取网络。
- 使用 C.ReLU 将早期阶段通道减半,并与取反激活值拼接以将特征图数量翻倍。
- 使用 Inception 模块以捕捉多尺度感受野。
- 采用 HyperNet 风格的多尺度中间输出,融合成用于 RPN 和分类器的最终特征图。
- 使用批归一化、残差连接,以及基于 Plateau 的学习率调度进行训练。
- 为了提高效率,仅将一部分多尺度特征喂给 RPN,同时对 RoI 分类使用完整的卷积特征(convf)。
实验结果
研究问题
- RQ1一个深层但窄的网络是否能够在显著降低计算成本的同时达到最先进的检测精度?
- RQ2C.ReLU、Inception 模块和多尺度融合(HyperNet 风格)是否为目标检测基准带来可测量的提升?
- RQ3在 CPU 和 GPU 上的 Faster R-CNN 设置中,PVANET 的实时性能与准确性权衡如何?
- RQ4PVANET 与 ResNet-101 及 VOC2007/2012 基准中的其他骨干网络相比,表现如何?
主要发现
- PVANET 在 VOC2007 上达到 83.8% mAP,在 VOC2012 上达到 82.5% mAP(第二名),且计算量显著低于 ResNet-101。
- PVANET 在 1065x640 输入下用于特征提取的 GMAC 为 7.9,约为 ResNet-101 成本的 12.3%。
- 在 CPU(单核 i7-6700K)上 PVANET 的运行时间为 750 ms/图像(1.3 FPS);在 Titan X GPU 上为 46 ms/图像(21.7 FPS)。
- RPN 仅使用 convf 的前 128 通道来生成提议,而 RCNN 使用 512 通道 convf 进行 RoI 处理。
- PVANET+(使用边界框投票)在 VOC2007 上达到 83.8% mAP,在 VOC2012 上达到 82.5% mAP,同时比某些更重的骨干网络更高效。
- 通过截断的 SVD 压缩全连接层在带来适度的 mAP 下降的同时降低运行时间(82.9%)。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。