QUICK REVIEW

[论文解读] EfficientDet: Scalable and Efficient Object Detection

Mingxing Tan, Ruoming Pang|arXiv (Cornell University)|Nov 20, 2019

Advanced Neural Network Applications参考文献 41被引用 521

一句话总结

EfficientDet 引入了加权的双向特征金字塔网络（BiFPN）和复合缩放方法，从而创建一系列检测器，在 COCO 数据集上达到业界领先的准确度，参数量和 FLOPs 远低于同类方法。

ABSTRACT

Model efficiency has become increasingly important in computer vision. In this paper, we systematically study neural network architecture design choices for object detection and propose several key optimizations to improve efficiency. First, we propose a weighted bi-directional feature pyramid network (BiFPN), which allows easy and fast multiscale feature fusion; Second, we propose a compound scaling method that uniformly scales the resolution, depth, and width for all backbone, feature network, and box/class prediction networks at the same time. Based on these optimizations and better backbones, we have developed a new family of object detectors, called EfficientDet, which consistently achieve much better efficiency than prior art across a wide spectrum of resource constraints. In particular, with single model and single-scale, our EfficientDet-D7 achieves state-of-the-art 55.1 AP on COCO test-dev with 77M parameters and 410B FLOPs, being 4x - 9x smaller and using 13x - 42x fewer FLOPs than previous detectors. Code is available at https://github.com/google/automl/tree/master/efficientdet.

研究动机与目标

在现实世界资源约束下，研究高效的一阶段目标检测器的设计选择。
开发一个可扩展的架构，在广泛的 FLOPs 和参数范围内同时提升准确性和效率。
提出一个可学习的特征融合机制和统一的缩放策略，以平衡骨干网络、特征网络和预测头。

提出的方法

提出一个带跨尺度连接的加权双向特征金字塔网络（BiFPN），用于高效的多尺度特征融合。
引入快速归一化融合，取代 softmax 加权融合，以降低延迟。
在一个架构中采用 EfficientNet 骨干以及一个共享的分类/边界框头（class/box head）。（EfficientDet）
开发一个复合缩放方法，联合缩放骨干宽度/深度、BiFPN 深度/宽度以及框/分类预测网络，并以一个简单系数 φ 指导。
重复 BiFPN 层和预测头以匹配不同的资源预算（D0–D7 配置）。
使用 COCO 检测和 Pascal VOC 分割进行评估，以证明效率和准确性的提升。

实验结果

研究问题

RQ1可学习的、高效的跨尺度特征融合（BiFPN）在准确性和计算成本上是否能优于现有的 FPN 变体？
RQ2在骨干、特征网络和预测头之间采用的系统性的复合缩放策略，是否在多种资源约束下带来更优的准确率-效率权衡？
RQ3像 EfficientNet 这样的骨干和一个共享的分类/框头如何提升整体检测器效率？
RQ4带权与非带权的特征融合对性能和速度有何影响？

主要发现

EfficientDet-D7x 在 COCO test-dev 上以 77M 参数和 410B FLOPs 实现 55.1 AP，相较于先前的检测器在计算量和参数显著更少的情况下表现出更高的精度。
带加权特征融合的 BiFPN 在使用更少的参数和 FLOPs 的同时实现更高的准确率，相较于其他跨尺度网络（如 NAS-FPN、PANet）。
快速归一化融合在准确性上与基于 softmax 的融合相近，但在 GPU 上的运行速度最高可快约 30%，提升端到端效率。
在骨干、BiFPN 与预测头上的复合缩放比单维缩放方法带来更好的准确性-效率权衡；D0–D7 配置覆盖了广泛的资源预算。
将 EfficientNet 骨干与 BiFPN 以及共享的框/分类头结合，显著降低模型规模和 FLOPs，同时在 COCO 和 VOC 任务上保持或提高准确性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。