QUICK REVIEW

[论文解读] Small-scale Pedestrian Detection Based on Somatic Topology Localization and Temporal Feature Aggregation

Tao Song, Leiyu Sun|arXiv (Cornell University)|Jul 4, 2018

Video Surveillance and Tracking Methods参考文献 27被引用 52

一句话总结

该论文提出了一种体感拓扑线定位网络（TLL），通过时序特征聚合及基于MRF的后处理来检测多尺度行人，在Caltech上实现了最先进的结果，在 CityPersons 具有竞争力，并揭示KITTI的注释偏差。

ABSTRACT

A critical issue in pedestrian detection is to detect small-scale objects that will introduce feeble contrast and motion blur in images and videos, which in our opinion should partially resort to deep-rooted annotation bias. Motivated by this, we propose a novel method integrated with somatic topological line localization (TLL) and temporal feature aggregation for detecting multi-scale pedestrians, which works particularly well with small-scale pedestrians that are relatively far from the camera. Moreover, a post-processing scheme based on Markov Random Field (MRF) is introduced to eliminate ambiguities in occlusion cases. Applying with these methodologies comprehensively, we achieve best detection performance on Caltech benchmark and improve performance of small-scale objects significantly (miss rate decreases from 74.53% to 60.79%). Beyond this, we also achieve competitive performance on CityPersons dataset and show the existence of annotation bias in KITTI dataset.

研究动机与目标

通过减少边界框注释偏差来促进改进的小尺度行人检测。
提出基于拓扑线的注释与回归框架，用于定位行人中心。
结合时序特征聚合，以利用视频序列实现更好的检测。
使用基于马尔可夫随机场的后处理来缓解遮挡歧义。
在Caltech上展示最先进的性能，在CityPersons上实现竞争性结果，并分析数据集注释偏差。

提出的方法

用体感拓扑线（顶部-底部轴）表示每个行人，并对顶点点绘制高斯分布映射以表示顶部和底部点。
构建一个全卷积网络（基于 ResNet-50），回归顶部/底部顶点置信度以及它们之间的边（链接）映射，跨多尺度特征。
对候选的顶部-底部对应用二部图匹配（匈牙利算法），利用预测的边置信度。
引入基于MRF的后处理，通过在附近候选对之间强制邻域一致性来解决遮挡引起的歧义。
通过 Conv-LSTM 整合时序信息，在跨帧传播特征以提高视频检测。

实验结果

研究问题

RQ1相比于边界框注释，体感拓扑线表示是否可以减少注释引起的歧义并改善小尺度行人检测？
RQ2多尺度表示和时序特征聚合如何影响小尺寸和遮挡行人的检测性能？
RQ3在拥挤/遮挡条件下，基于MRF的后处理步骤是否能提高匹配精度？
RQ4将 TLL 与 Conv-LSTM 结合对基于视频的行人检测有何影响？

主要发现

TLL 在 Caltech 上达到与最先进方法竞争的结果，对小尺度物体有显著改进（Far/Middle 范围的缺失率下降）。
MRF 的后处理减少了遮挡相关的误配，提升度量指标，尤其是在拥挤场景和遮挡情况下。
通过 Conv-LSTM 的时序特征聚合，通过在帧间传播时序线索，为极小或对焦不良的行人带来显著提升。
在 CityPersons 上，TLL 结合 MRF 取得了强劲的结果，特别是在严重遮挡场景。
研究强调了边界框数据集（如 KITTI）的注释偏差，并显示基于线的注释可以为小对象提供更一致的定位。
定量结果显示 TLL(MRF)+LSTM 在 Caltech 的评测协议中实现了报告方法中的最佳单 shot 性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。