[论文解读] Multispectral Pedestrian Detection via Simultaneous Detection and Segmentation
论文提出 MSDS-RCNN,一种两阶段的多光谱检测框架,融合彩色和热数据并联合优化检测与语义分割,以提升 KAIST 的行人检测,达到最先进的结果并提供经净化的训练注释。
Multispectral pedestrian detection has attracted increasing attention from the research community due to its crucial competence for many around-the-clock applications (e.g., video surveillance and autonomous driving), especially under insufficient illumination conditions. We create a human baseline over the KAIST dataset and reveal that there is still a large gap between current top detectors and human performance. To narrow this gap, we propose a network fusion architecture, which consists of a multispectral proposal network to generate pedestrian proposals, and a subsequent multispectral classification network to distinguish pedestrian instances from hard negatives. The unified network is learned by jointly optimizing pedestrian detection and semantic segmentation tasks. The final detections are obtained by integrating the outputs from different modalities as well as the two stages. The approach significantly outperforms state-of-the-art methods on the KAIST dataset while remain fast. Additionally, we contribute a sanitized version of training annotations for the KAIST dataset, and examine the effects caused by different kinds of annotation errors. Future research of this problem will benefit from the sanitized version which eliminates the interference of annotation errors.
研究动机与目标
- 通过利用 RGB-热数据,在低照度环境下推动改进的行人检测。
- 提出一个用于多光谱提案和分类的两阶段网络融合架构。
- 探索检测与语义分割的联合优化以提升性能。
- 评估标注质量对检测器性能的影响,并提供 KAIST 的净化注释。
提出的方法
- 提出含多光谱 proposal 网络(MPN)和多光谱分类网络(MCN)的 MSDS-RCNN。
- 在 MPN 和 MCN 的中间阶段融合彩色、热和合并流,以利用互补特征。
- 使用包含检测和像素级分割项的联合损失对每个流进行训练。
- 跨模态整合 MPN 和 MCN 的输出以获得最终检测。
- 应用 KAIST 训练注释的净化版本来研究注释噪声效应。
实验结果
研究问题
- RQ1多光谱融合能否在 KAIST 上超越单模态 RGB 或热方法提高行人检测?
- RQ2在提案生成和分类期间引入语义分割监督是否会提升检测性能?
- RQ3标注质量如何影响多光谱检测器性能,以及对 KAIST 注释净化的影响?
主要发现
- MSDS-RCNN 在 KAIST 上显著优于最先进方法,达到 11.63% 的对数平均漏检率(MR)。
- 使用净化的 KAIST 训练注释将测试集 MR 降至 7.45%,突显注释噪声是主要的错误源。
- 在 MPN 和 MCN 中的分割监督带来显著的性能提升,在 MPN 中应用时影响更大。
- 在彩色、热和合并流之间进行分数融合,以及 MPN 的贡献,进一步提升 MR 相对于单独的流。
- 该方法在 Titan X GPU 上每张图像 228 ms 的速度运行,比对比的最佳方法 IATDNN+IASS 更快。
- 在日间和夜间场景均观察到性能提升,夜间提升尤为显著。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。