QUICK REVIEW

[论文解读] Joint Detection and Identification Feature Learning for Person Search

Tong Xiao, Shuang Li|arXiv (Cornell University)|Apr 7, 2016

Video Surveillance and Tracking Methods被引用 61

一句话总结

本文提出了一种基于单个卷积神经网络的行人检索联合检测与识别特征学习框架，其中行人检测与重识别任务被联合优化。该方法引入了一种在线实例匹配（OIM）损失，相比Softmax损失实现了更快且更优的收敛速度，在大规模行人检索数据集上达到了最先进性能。

ABSTRACT

Existing person re-identification benchmarks and methods mainly focus on matching cropped pedestrian images between queries and candidates. However, it is different from real-world scenarios where the annotations of pedestrian bounding boxes are unavailable and the target person needs to be searched from a gallery of whole scene images. To close the gap, we propose a new deep learning framework for person search. Instead of breaking it down into two separate tasks---pedestrian detection and person re-identification, we jointly handle both aspects in a single convolutional neural network. An Online Instance Matching (OIM) loss function is proposed to train the network effectively, which is scalable to datasets with numerous identities. To validate our approach, we collect and annotate a large-scale benchmark dataset for person search. It contains 18,184 images, 8,432 identities, and 96,143 pedestrian bounding boxes. Experiments show that our framework outperforms other separate approaches, and the proposed OIM loss function converges much faster and better than the conventional Softmax loss.

研究动机与目标

解决行人重识别基准数据集假设使用人工裁剪的行人图像，而现实应用中使用全场景图像之间的差距。
通过在单一深度神经网络中联合优化行人检测与行人重识别，而非将二者视为独立任务，从而提升行人检索性能。
开发一种可扩展的、非参数化的损失函数，以支持包含大量身份的大规模数据集。
构建一个大规模、面向真实世界应用的基准数据集，以支持未来的研究工作。

提出的方法

设计了一种单一CNN架构，包含行人候选区域生成网络和识别网络，二者共享底层卷积特征，以实现更快的推理速度。
在线实例匹配（OIM）损失函数将小批量样本与已标注身份的特征查找表以及未标注特征的循环队列进行比较，作为负样本。
OIM损失无需超参数，可同时有效比较所有样本，从而在收敛速度和性能上优于Softmax损失。
通过L2归一化子空间投影将特征维度降低至256D，以正则化训练并加速距离计算。
在OIM损失中采用身份的子采样策略，以保持在具有大量身份的大规模数据集上的可扩展性。
系统采用端到端联合优化训练，使检测与识别组件能够自适应地相互改进。

实验结果

研究问题

RQ1在单一CNN中联合优化行人检测与行人重识别是否能相比独立流水线方法提升行人检索性能？
RQ2所提出的OIM损失函数是否在大规模行人检索数据集上相比传统Softmax或三元组损失函数实现更快且更有效的训练？
RQ3当应用于身份数量不断增加的数据集时，OIM损失的可扩展性表现如何？
RQ4在使用联合检测与重识别时，检测召回率对最终行人检索性能的影响有多大？
RQ5在真实条件下，画廊大小如何影响行人检索模型的泛化能力和性能？

主要发现

所提出的框架结合OIM损失在CUHK03上达到77.7%的top-1 mAP，在Market1501上达到77.9%，在Duke上达到61.7%，优于基于Softmax损失的基线方法。
在ResNet-50上，OIM损失在CUHK03上实现77.5%的top-1准确率，在Market1501上达到82.1%，在Duke上达到68.1%，显著优于Softmax损失。
OIM损失收敛更快且性能更优，即使在损失计算中对100个身份进行子采样，也能保持强劲性能并提升训练速度。
使用256维的L2归一化特征子空间可获得最佳测试性能（top-1为78.7%，mAP为75.5%），优于原始2048D特征和更高维的投影。
更高的检测召回率并不总是能提升行人检索mAP，表明重识别模型可能被误检样本误导，进一步说明联合优化的必要性。
随着画廊大小增加，不同方法之间的性能差距减小，表明硬样本在各类模型中普遍存在，提示硬样本挖掘可进一步提升性能。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。