QUICK REVIEW

[论文解读] Person Search via A Mask-Guided Two-Stream CNN Model

Di Chen, Shanshan Zhang|arXiv (Cornell University)|Jul 21, 2018

Video Surveillance and Tracking Methods参考文献 38被引用 24

一句话总结

本文提出一种基于掩码引导的双流CNN模型用于行人检索，将行人检测与重识别任务分离，通过一个分支处理前景行人区域，另一个分支处理原始图像区域，以增强特征表示。该方法在CUHK-SYSU数据集上达到83.0%的mAP，在PRW数据集上达到32.6%的mAP，通过改进特征学习（无表示共享）实现性能超越，优于先前工作超过5个百分点。

ABSTRACT

In this work, we tackle the problem of person search, which is a challenging task consisted of pedestrian detection and person re-identification~(re-ID). Instead of sharing representations in a single joint model, we find that separating detector and re-ID feature extraction yields better performance. In order to extract more representative features for each identity, we segment out the foreground person from the original image patch. We propose a simple yet effective re-ID method, which models foreground person and original image patches individually, and obtains enriched representations from two separate CNN streams. From the experiments on two standard person search benchmarks of CUHK-SYSU and PRW, we achieve mAP of $83.0\%$ and $32.6\%$ respectively, surpassing the state of the art by a large margin (more than 5pp).

研究动机与目标

为应对行人检索的挑战，该任务在遮挡、低分辨率和外观变化等真实场景条件下，结合行人检测与行人重识别。
探究在重识别任务中共享表示是否会因目标冲突而降低性能：重识别需建模类间差异，而检测需建模类内共性。
通过分别显式建模前景行人区域和原始图像区域，利用两者互补信息，提升重识别精度。
证明两阶段、非共享表示方法在行人检索中优于端到端联合学习。

提出的方法

该方法采用两阶段流程：首先，使用Faster R-CNN检测器在图库图像中定位行人；其次，使用掩码引导的双流CNN执行重识别。
利用在MS COCO上预训练的FCIS模型生成的分割掩码提取前景行人区域，且不进行微调。
两个独立的CNN分支分别处理前景区域和原始图像区域，实现对每种模态的独立特征学习。
重识别网络采用在线实例匹配（OIM）损失进行训练，以优化身份判别能力。
最终特征向量通过拼接两个分支的输出形成，使模型能够同时受益于具有判别性的前景线索与上下文背景信息。
消融实验表明，适度的上下文信息（通过RoI扩展因子γ ∈ [1.2, 1.5]实现）可提升性能，而过多背景信息则会损害准确率。

实验结果

研究问题

RQ1由于学习目标冲突，是否在行人检测与行人重识别之间共享表示会降低整体行人检索性能？
RQ2通过双CNN分支分别建模前景行人区域和原始图像区域，能否实现更好的重识别性能？
RQ3是否存在一个最优的前景强调与背景上下文之间的平衡，以最大化重识别准确率？
RQ4两阶段、非共享表示方法是否能在行人检索中优于端到端联合学习？

主要发现

所提方法在CUHK-SYSU基准上达到83.0%的mAP，超越先前最先进方法超过5个百分点。
在PRW数据集上，该方法达到32.6%的mAP，同样超越先前最先进方法超过5个百分点。
消融实验确认，前景分支对最终特征向量的贡献大于原始图像分支，表现为前者的通道平均激活值更高。
当RoI扩展因子γ在1.2至1.5之间时，模型性能最佳，表明适度的上下文信息可提升性能，而过多背景信息则会降低准确率。
使用边界框作为弱掩码而非FCIS生成的掩码，可将推理时间减少约2倍，同时保持高性能（mAP 85.1% vs. 89.1%），证明了在精度损失极小情况下的实用加速效果。
定性结果表明，与基线OIM相比，该模型能更成功地将正确匹配排在前列，尤其在衣物相似的情况下，通过强调细微的前景差异实现改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。