[论文解读] Object Detection in 20 Years: A Survey
对目标检测从传统手工特征到深度学习的演变进行全面审查,详细介绍里程碑检测器、数据集、度量、构建模块、加速技术,以及截至2022年的最前沿方法。
Object detection, as of one the most fundamental and challenging problems in computer vision, has received great attention in recent years. Over the past two decades, we have seen a rapid technological evolution of object detection and its profound impact on the entire computer vision field. If we consider today's object detection technique as a revolution driven by deep learning, then back in the 1990s, we would see the ingenious thinking and long-term perspective design of early computer vision. This paper extensively reviews this fast-moving research field in the light of technical evolution, spanning over a quarter-century's time (from the 1990s to 2022). A number of topics have been covered in this paper, including the milestone detectors in history, detection datasets, metrics, fundamental building blocks of the detection system, speed-up techniques, and the recent state-of-the-art detection methods.
研究动机与目标
- 绘制目标检测从传统方法到基于深度学习方法的历史演变。
- 总结里程碑检测器及其核心思想(特征、候选区域、端到端网络)。
- 分析推动检测进展的数据集与评估指标。
- 回顾实现实用检测器的加速技术和核心架构构建要素。
提出的方法
- 对里程碑检测器及其技术创新的考察(VJ、HOG、DPM、RCNN家族、YOLO/SSD、RetinaNet、DETR 等)。
- 比较数据集(VOC、ILSVRC/ImageNet、MS-COCO、Open Images)及发展中的评估指标(IoU 阈值、MS-COCO AP)。
- 讨论多尺度检测、上下文引导、基于提议的方法与锚框无关方法,以及损失函数。
- 综合加速技术与端到端训练的进展。
实验结果
研究问题
- RQ1塑造目标检测从2014年前到2014年后发展的关键历史性里程碑是什么?
- RQ2数据集和评估指标如何推动进展并实现跨检测器的公平比较?
- RQ3哪些架构和训练创新使得实现实时或近实时检测且不牺牲精度成为可能?
主要发现
- 出现了两个主要时期:2014年前的传统检测器和2014年后基于深度学习的检测器。
- R-CNN 时代引入了区域提议和基于CNN的特征,随后 Fast RCNN 与 Faster RCNN 通过区域提议网络(RPN)实现端到端训练和接近实时的性能。
- FPN(特征金字塔网络)通过在各个尺度构建语义图来实现有效的多尺度检测,在 Faster R-CNN 上提升了 COCO 结果。
- 单阶段检测器(YOLO、SSD)实现了高速度,焦点损失(RetinaNet)解决类别不平衡问题,在更高速度下达到具有竞争力的精度。
- 基于Transformer的DETR引入了无需锚框的端到端集合预测,Deformable DETR在 MS-COCO 上获得强劲结果(如 COCO 的 71.9% mAP)。
- MS-COCO 与 Open Images 被强调为当前的标准基准,评估指标从固定的 IoU 阈值演变为多阈值的 COCO AP 用于定位精度。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。