[论文解读] SSA-CNN: Semantic Self-Attention CNN for Pedestrian Detection
SSA-CNN 将多尺度语义分割图作为自注意力线索与 CNN 特征融合,以提升行人检测,在 Caltech 数据集上实现对 MR 的最先进水平,且推理高效。
Pedestrian detection plays an important role in many applications such as autonomous driving. We propose a method that explores semantic segmentation results as self-attention cues to significantly improve the pedestrian detection performance. Specifically, a multi-task network is designed to jointly learn semantic segmentation and pedestrian detection from image datasets with weak box-wise annotations. The semantic segmentation feature maps are concatenated with corresponding convolution features maps to provide more discriminative features for pedestrian detection and pedestrian classification. By jointly learning segmentation and detection, our proposed pedestrian self-attention mechanism can effectively identify pedestrian regions and suppress backgrounds. In addition, we propose to incorporate semantic attention information from multi-scale layers into deep convolution neural network to boost pedestrian detection. Experiment results show that the proposed method achieves the best detection performance with MR of 6.27% on Caltech dataset and obtain competitive performance on CityPersons dataset while maintaining high computational efficiency.
研究动机与目标
- 通过利用语义分割作为自注意力线索来推动行人检测的改进。
- 提出一个多尺度、多任务框架,以盒子级注释共同学习行人检测与语义分割。
- 将语义特征整合到 RPN 和 R-CNN 阶段,以提升对行人的判别与定位能力。
提出的方法
- 将 Faster R-CNN 扩展为 Semantic Self-Attention RPN (SSA-RPN) 和 Semantic Self-Attention R-CNN (SSA-RCNN)。
- 将语义分割分支连接到 conv4_3 和 conv5_3,以产生 conv4_3_seg 与 conv5_3_seg 特征图。
- 将语义特征图与相应的卷积特征拼接,形成增强的检测/分类特征。
- 通过对 conv4_3 和 conv5_3 的分割图进行池化与融合,使用多尺度语义信息在 R-CNN 中实现自注意力。
- 使用多任务损失对检测分支与分割分支进行联合优化(二元分类:行人 vs 非行人)。
- 在 Caltech 和 CityPersons 上进行评估,单图推理在 GTX 1080 Ti。
实验结果
研究问题
- RQ1将多尺度语义分割作为自注意力是否能提升行人检测性能?
- RQ2以框级注释进行检测与分割的联合学习是否能降低标注量同时提升准确性?
- RQ3多尺度语义自注意力对 RPN 提案和 R-CNN 分类在行人检测中的影响?
- RQ4与最先进方法相比,该方法的运行时效率如何?
主要发现
- SSA-CNN 在 Caltech 测试集的 Reasonable 设置下达到 MR = 6.27%,优于现有方法。
- 在 CityPersons 上展现出竞争性结果,同时保持较高的计算效率。
- 与单尺度或无注意力的基线相比,多尺度语义自注意力提升了提案质量(SSA-RPN)与分类(SSA-RCNN)。
- 使用盒子级注释进行语义引导相较像素级分割可降低标注需求。
- SSA-RPN–SSA-RCNN 集成在与 SDS-RCNN 和 F-DNN2+SS 等方法相比时,提供更快或相近的运行时。
- 消融研究表明更深的 conv5_3 语义图提供更强的注意力线索,并且多尺度融合取得最佳性能。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。