[论文解读] Anchor-free Small-scale Multispectral Pedestrian Detection
本文提出一种无锚点、单阶段的多光谱(可见光与热红外)小尺度行人检测框架,通过预测目标中心与尺度代替锚框。通过改进的多光谱特征融合与数据增强技术,在KAIST基准上实现了5.68%的对数平均漏检率,较之前最先进方法提升25%。
Multispectral images consisting of aligned visual-optical (VIS) and thermal infrared (IR) image pairs are well-suited for practical applications like autonomous driving or visual surveillance. Such data can be used to increase the performance of pedestrian detection especially for weakly illuminated, small-scaled, or partially occluded instances. The current state-of-the-art is based on variants of Faster R-CNN and thus passes through two stages: a proposal generator network with handcrafted anchor boxes for object localization and a classification network for verifying the object category. In this paper we propose a method for effective and efficient multispectral fusion of the two modalities in an adapted single-stage anchor-free base architecture. We aim at learning pedestrian representations based on object center and scale rather than direct bounding box predictions. In this way, we can both simplify the network architecture and achieve higher detection performance, especially for pedestrians under occlusion or at low object resolution. In addition, we provide a study on well-suited multispectral data augmentation techniques that improve the commonly used augmentations. The results show our method's effectiveness in detecting small-scaled pedestrians. We achieve 5.68% log-average miss rate in comparison to the best current state-of-the-art of 7.49% (25% improvement) on the challenging KAIST Multispectral Pedestrian Detection Benchmark. Code: https://github.com/HensoldtOptronicsCV/MultispectralPedestrianDetection
研究动机与目标
- 解决在真实监控与自动驾驶场景中检测小尺度、遮挡或低分辨率行人的挑战。
- 克服两阶段、基于锚框检测器(如Faster R-CNN)在多光谱设置下的局限性,其计算开销大,对极小行人检测效果较差。
- 开发一种简化、单阶段的架构,直接回归目标中心与尺度,提升小尺度实例的效率与性能。
- 研究并优化多光谱数据增强策略,以提升模型泛化能力与鲁棒性。
- 在KAIST多光谱行人检测基准上实现最先进性能,尤其在具有挑战性的小尺度与遮挡情形下。
提出的方法
- 将单阶段无锚点目标检测主干网络(如CenterNet或FCOS风格)适配为通过关键点式中心热图与尺度感知回归头预测行人目标。
- 使用可学习的跨模态注意力或带残差连接的逐元素拼接,对称且早期地融合可见光(VIS)与热红外(IR)模态特征。
- 用直接回归目标中心坐标与尺度替代传统的锚框生成与区域建议网络,降低网络结构复杂度。
- 提出一种新颖的多光谱数据增强流水线,结合空间、强度与模态特异性增强(如随机掩蔽、VIS图像的颜色抖动、IR图像的噪声注入),以提升鲁棒性。
- 使用基于焦点损失的分类头进行模型训练,以处理类别不平衡问题,尤其针对罕见的小尺度行人。
- 优化训练目标,联合回归中心偏移与尺度,使用平滑L1损失进行回归,焦点损失进行分类。
实验结果
研究问题
- RQ1无锚点、单阶段检测器是否能在多光谱小尺度行人检测中超越两阶段基于锚框的模型?
- RQ2在极小行人检测中,基于中心点的目标定位与基于锚框的定位在准确率与效率方面有何差异?
- RQ3哪些多光谱数据增强技术最有效地提升在KAIST等具有挑战性的基准上的检测性能?
- RQ4早期多模态特征融合在提升遮挡或低可见度行人检测方面有多大作用?
- RQ5简化架构是否能在不使用区域建议网络复杂结构的前提下实现最先进性能?
主要发现
- 所提无锚点方法在KAIST多光谱行人检测基准上实现5.68%的对数平均漏检率,相较之前最先进方法(7.49%)相对提升25%。
- 该模型在小尺度行人检测中表现更优,尤其在20×20像素以下目标上检测准确率显著提升。
- 所提出的多光谱数据增强策略提升了模型泛化能力,尤其在恶劣光照与遮挡条件下表现更优。
- 单阶段、无锚点设计降低了模型复杂度与推理时间,同时保持或超越两阶段检测器的性能。
- 基于中心点的定位结合尺度预测,相比基于锚框的方法,能更精确、更鲁棒地检测部分遮挡的行人。
- VIS与IR特征的早期融合提升了低对比度与热对比度场景下的特征表示,增强了检测可靠性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。