QUICK REVIEW

[论文解读] Occlusion-aware R-CNN: Detecting Pedestrians in a Crowd

Shifeng Zhang, Longyin Wen|arXiv (Cornell University)|Jul 23, 2018

Video Surveillance and Tracking Methods参考文献 53被引用 33

一句话总结

本文提出Occlusion-aware R-CNN（OR-CNN），一种两阶段目标检测框架，通过引入聚合损失（aggregation loss）以紧凑方式将同一行人的候选框聚类在一起，并采用部件遮挡感知RoI（PORoI）池化层，整合人体结构先验信息与可见性预测，从而提升拥挤场景中行人检测的性能。该方法在CityPersons（11.3% MR⁻²）、ETH（24.5% MR⁻²）和INRIA（6.4% MR⁻²）数据集上均达到最先进水平。

ABSTRACT

Pedestrian detection in crowded scenes is a challenging problem since the pedestrians often gather together and occlude each other. In this paper, we propose a new occlusion-aware R-CNN (OR-CNN) to improve the detection accuracy in the crowd. Specifically, we design a new aggregation loss to enforce proposals to be close and locate compactly to the corresponding objects. Meanwhile, we use a new part occlusion-aware region of interest (PORoI) pooling unit to replace the RoI pooling layer in order to integrate the prior structure information of human body with visibility prediction into the network to handle occlusion. Our detector is trained in an end-to-end fashion, which achieves state-of-the-art results on three pedestrian detection datasets, i.e., CityPersons, ETH, and INRIA, and performs on-pair with the state-of-the-arts on Caltech.

研究动机与目标

解决在遮挡与行人重叠导致检测精度下降的拥挤场景中行人检测的挑战。
通过强制实现相邻重叠行人候选框的紧凑聚类，减少误检。
通过在特征提取过程中整合人体结构先验信息与可见性预测，提升对部分遮挡的处理能力。
开发一个端到端可训练的检测器，使其在多种行人检测基准上具有良好的泛化能力。
在多个基准数据集上实现最先进性能，尤其在高遮挡场景中表现优异。

提出的方法

提出一种聚合损失（AggLoss），同时最小化候选框与目标之间的距离以及同一行人内部候选框之间的距离，促进候选框的紧凑聚类。
设计一种部件遮挡感知RoI（PORoI）池化单元，将候选框划分为五个身体部位，并分别池化特征，同时整合每个部位的可见性分数。
使用自适应大小的池化分箱，从每个身体部位及完整候选框中提取固定长度的特征向量，以保留空间结构。
通过聚合损失与PORoI池化层端到端训练网络，联合优化候选框定位与遮挡感知的特征学习。
将人体结构先验信息（如头部、躯干、四肢等）整合到RoI池化过程中，以提升在部分遮挡下的鲁棒性。
通过子网络预测每个身体部位的可见性分数，这些分数在检测过程中用于加权特征，从而增强对遮挡区域的敏感性。

实验结果

研究问题

RQ1一种鼓励对同一行人候选框进行紧凑聚类的损失函数，是否能提升拥挤场景下的检测精度？
RQ2如何有效将人体结构先验信息整合到RoI池化层中，以提升对遮挡的鲁棒性？
RQ3对个体身体部位进行可见性预测，是否能增强遮挡行人检测中的特征表示？
RQ4所提出的PORoI池化单元在处理部分遮挡方面是否优于标准RoI池化？
RQ5OR-CNN模型在无需微调的情况下，其泛化能力在不同行人检测基准上有多强？

主要发现

OR-CNN在CityPersons数据集上实现了11.3% MR⁻²的平均召回率，创下新的最先进性能记录。
在ETH数据集上，模型达到24.5% MR⁻²，相比之前最先进方法（RFN-BF）提升5.7个百分点。
在INRIA数据集上，模型实现6.4% MR⁻²，展现出在高分辨率、多样化行人图像上的强大性能。
在未进行微调的情况下，模型在Caltech-USA数据集上表现良好，Reasonable子集上达到4.1% MR⁻²，与现有最佳方法性能相当。
消融实验表明，聚合损失与PORoI池化均对性能提升有显著贡献，尤其在高遮挡场景中。
通过PORoI池化整合可见性预测与身体部位特征，显著提升了检测鲁棒性，尤其对部分遮挡行人表现更优。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。