QUICK REVIEW

[论文解读] A Survey of Modern Object Detection Literature using Deep Learning

Karanbir Chahal, Kuntal Dey|arXiv (Cornell University)|Aug 22, 2018

Advanced Neural Network Applications参考文献 20被引用 28

一句话总结

本综述对2018年时的现代基于深度学习的目标检测方法进行了全面分析，重点关注两阶段（Faster R-CNN）和单阶段（SSD）检测器，以及适用于移动设备部署的轻量化架构。综述将RetinaNet识别为当时最先进模型，并评估了1-cycle策略和LARS等训练技术，以提升收敛速度和效率。

ABSTRACT

Object detection is the identification of an object in the image along with its localisation and classification. It has wide spread applications and is a critical component for vision based software systems. This paper seeks to perform a rigorous survey of modern object detection algorithms that use deep learning. As part of the survey, the topics explored include various algorithms, quality metrics, speed/size trade offs and training methodologies. This paper focuses on the two types of object detection algorithms- the SSD class of single step detectors and the Faster R-CNN class of two step detectors. Techniques to construct detectors that are portable and fast on low powered devices are also addressed by exploring new lightweight convolutional base architectures. Ultimately, a rigorous review of the strengths and weaknesses of each detector leads us to the present state of the art.

研究动机与目标

提供截至2018年的基于深度学习目标检测算法的严谨且最新的综述。
分析现代检测器在精度、速度和模型大小之间的权衡。
评估适用于低功耗设备的便携式、快速目标检测器的构建技术。
探索可提升收敛速度和模型性能的先进训练方法。
识别开放性挑战，如对抗性鲁棒性与弱监督学习。

提出的方法

调研目标检测器的两大类：两阶段（Faster R-CNN）和单阶段（SSD）神经网络。
使用标准指标（如平均精度均值（mAP）和推理速度）评估性能。
分析轻量化卷积主干网络架构（如MobileNet、ShuffleNet）在移动设备部署中的应用。
回顾现代训练技术，包括1-cycle策略、学习率查找器以及逐层自适应学习率缩放（LARS）。
评估随机权重平均（SWA）和超收敛等技术在加快训练速度方面的应用。
探索使用线性批量大小缩放和自适应学习率的分布式训练策略。

实验结果

研究问题

RQ1两阶段与单阶段目标检测器在架构和训练方面有何关键差异？
RQ2现代轻量化网络如何实现移动设备和边缘设备上的高效目标检测？
RQ3哪些训练技术能显著提升目标检测中的收敛速度和模型精度？
RQ4在mAP和推理速度方面，目标检测器在多大程度上达到了人类水平性能？
RQ5在对抗性样本鲁棒性和弱监督训练方面，仍存在哪些开放性挑战？

主要发现

现代目标检测器的平均精度均值（mAP）已从早期模型的29提升至43，表明已接近人类水平性能。
推理时间显著改善，从早期深度学习检测器的每张图像47秒缩短至30毫秒以下，实现了实时检测。
在发表时，RetinaNet被认定为性能最佳的模型，在单阶段检测器中实现了最先进精度。
1-cycle策略和LARS训练技术显著提升了训练效率和收敛速度，尤其在分布式设置中表现突出。
采用LARS和线性批量大小缩放的分布式训练已将ImageNet训练时间缩短至仅4分钟。
量化和神经架构搜索（NAS）在减小模型大小和推理时间方面展现出潜力，但NAS仍计算成本较高。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。