Skip to main content
QUICK REVIEW

[论文解读] A Survey of Modern Object Detection Literature using Deep Learning

Karanbir Chahal, Kuntal Dey|arXiv (Cornell University)|Aug 22, 2018
Advanced Neural Network Applications参考文献 20被引用 28
一句话总结

本综述对2018年时的现代基于深度学习的目标检测方法进行了全面分析,重点关注两阶段(Faster R-CNN)和单阶段(SSD)检测器,以及适用于移动设备部署的轻量化架构。综述将RetinaNet识别为当时最先进模型,并评估了1-cycle策略和LARS等训练技术,以提升收敛速度和效率。

ABSTRACT

Object detection is the identification of an object in the image along with its localisation and classification. It has wide spread applications and is a critical component for vision based software systems. This paper seeks to perform a rigorous survey of modern object detection algorithms that use deep learning. As part of the survey, the topics explored include various algorithms, quality metrics, speed/size trade offs and training methodologies. This paper focuses on the two types of object detection algorithms- the SSD class of single step detectors and the Faster R-CNN class of two step detectors. Techniques to construct detectors that are portable and fast on low powered devices are also addressed by exploring new lightweight convolutional base architectures. Ultimately, a rigorous review of the strengths and weaknesses of each detector leads us to the present state of the art.

研究动机与目标

  • 提供截至2018年的基于深度学习目标检测算法的严谨且最新的综述。
  • 分析现代检测器在精度、速度和模型大小之间的权衡。
  • 评估适用于低功耗设备的便携式、快速目标检测器的构建技术。
  • 探索可提升收敛速度和模型性能的先进训练方法。
  • 识别开放性挑战,如对抗性鲁棒性与弱监督学习。

提出的方法

  • 调研目标检测器的两大类:两阶段(Faster R-CNN)和单阶段(SSD)神经网络。
  • 使用标准指标(如平均精度均值(mAP)和推理速度)评估性能。
  • 分析轻量化卷积主干网络架构(如MobileNet、ShuffleNet)在移动设备部署中的应用。
  • 回顾现代训练技术,包括1-cycle策略、学习率查找器以及逐层自适应学习率缩放(LARS)。
  • 评估随机权重平均(SWA)和超收敛等技术在加快训练速度方面的应用。
  • 探索使用线性批量大小缩放和自适应学习率的分布式训练策略。

实验结果

研究问题

  • RQ1两阶段与单阶段目标检测器在架构和训练方面有何关键差异?
  • RQ2现代轻量化网络如何实现移动设备和边缘设备上的高效目标检测?
  • RQ3哪些训练技术能显著提升目标检测中的收敛速度和模型精度?
  • RQ4在mAP和推理速度方面,目标检测器在多大程度上达到了人类水平性能?
  • RQ5在对抗性样本鲁棒性和弱监督训练方面,仍存在哪些开放性挑战?

主要发现

  • 现代目标检测器的平均精度均值(mAP)已从早期模型的29提升至43,表明已接近人类水平性能。
  • 推理时间显著改善,从早期深度学习检测器的每张图像47秒缩短至30毫秒以下,实现了实时检测。
  • 在发表时,RetinaNet被认定为性能最佳的模型,在单阶段检测器中实现了最先进精度。
  • 1-cycle策略和LARS训练技术显著提升了训练效率和收敛速度,尤其在分布式设置中表现突出。
  • 采用LARS和线性批量大小缩放的分布式训练已将ImageNet训练时间缩短至仅4分钟。
  • 量化和神经架构搜索(NAS)在减小模型大小和推理时间方面展现出潜力,但NAS仍计算成本较高。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。