QUICK REVIEW

[论文解读] Fusion of Multispectral Data Through Illumination-aware Deep Neural Networks for Pedestrian Detection

Dayan Guan, Yanpeng Cao|arXiv (Cornell University)|Feb 27, 2018

Video Surveillance and Tracking Methods参考文献 11被引用 19

一句话总结

本文提出一种光照感知的双流深度神经网络（IATDNN），通过融合可见光与热成像，实现全天候条件下鲁棒的多光谱行人检测。通过全连接网络估计光照条件，并对白天/夜间子网络实施自适应加权，该方法提升了检测精度与效率，在KAIST数据集上达到26.37%的MR（漏检率），较最先进方法提升11%，同时保持0.25秒/帧的低推理时延。

ABSTRACT

Multispectral pedestrian detection has received extensive attention in recent years as a promising solution to facilitate robust human target detection for around-the-clock applications (e.g. security surveillance and autonomous driving). In this paper, we demonstrate illumination information encoded in multispectral images can be utilized to significantly boost performance of pedestrian detection. A novel illumination-aware weighting mechanism is present to accurately depict illumination condition of a scene. Such illumination information is incorporated into two-stream deep convolutional neural networks to learn multispectral human-related features under different illumination conditions (daytime and nighttime). Moreover, we utilized illumination information together with multispectral data to generate more accurate semantic segmentation which are used to boost pedestrian detection accuracy. Putting all of the pieces together, we present a powerful framework for multispectral pedestrian detection based on multi-task learning of illumination-aware pedestrian detection and semantic segmentation. Our proposed method is trained end-to-end using a well-designed multi-task loss function and outperforms state-of-the-art approaches on KAIST multispectral pedestrian dataset.

研究动机与目标

解决真实世界监控与自动驾驶中光照条件变化（白天/夜间）导致的行人检测性能下降问题。
克服仅使用可见光模态的检测器在低光照、恶劣天气或遮挡条件下性能下降的局限性。
通过融合互补的可见光与热成像数据，提升多光谱行人检测的鲁棒性与准确性。
构建一个端到端可训练的框架，联合优化光照感知检测与语义分割任务。
实现高检测精度的同时保持低推理延迟，以支持实际部署。

提出的方法

提出一种光照感知的加权机制，根据估计的光照条件动态分配注意力至白天或夜间子网络。
训练一个全连接光照网络（IFCNN），利用多光谱语义特征预测光照感知的加权系数。
构建一个双流深度神经网络（TDNN），包含分别针对白天与夜间条件优化的子网络，各子网络专注于在对应光照条件下检测行人。
引入光照感知的语义分割掩码作为监督信号，以优化特征学习并减少误检。
采用多任务损失函数，联合优化行人检测与语义分割，实现特征共享并提升泛化能力。
通过学习到的加权系数融合白天与夜间子网络的输出，生成对光照变化具有鲁棒性的最终检测结果。

实验结果

研究问题

RQ1能否利用深度神经网络准确估计多光谱图像中的光照条件，以指导特征学习？
RQ2引入光照感知加权机制是否能提升在白天与夜间场景下的行人检测性能？
RQ3联合学习检测与语义分割任务是否能提升检测精度并减少误检？
RQ4与当前最先进多光谱行人检测器相比，所提方法在精度与效率方面表现如何？
RQ5光照感知语义分割在多光谱行人检测中的最优网络架构是什么？

主要发现

所提出的IATDNN+IASS方法在KAIST全天候基准测试中实现26.37%的漏检率（MR），相较此前最先进方法Fusion RPN + BDT（29.68% MR）实现11%的相对性能提升。
IATDNN在无分割模块时达到29.62%的MR，白天性能优于Fusion RPN + BDT（30.51% MR），夜间表现也接近（26.88% vs. 27.62%）。
光照感知的语义分割模块显著减少了因重复检测导致的误检，提升了检测可靠性。
该方法推理速度为0.25秒/帧，快于当前最先进方法（如Halfway Fusion为0.40秒/帧，Fusion RPN + BDT为0.80秒/帧）。
光照感知的决策阶段语义分割在融合精度方面表现最优，优于其他架构。
光照估计网络（IFCNN）成功以高精度预测光照条件，从而实现对子网络的有效动态加权。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。