Skip to main content
QUICK REVIEW

[论文解读] Neural Person Search Machines

Hao Liu, Jiashi Feng|arXiv (Cornell University)|Jul 21, 2017
Video Surveillance and Tracking Methods参考文献 35被引用 19
一句话总结

本文提出神经人像搜索机器(NPSM),一种新颖的端到端框架,通过查询感知记忆与注意力机制,递归地将搜索区域从完整图像缩小至精确锁定目标人像。通过利用基于卷积LSTM的神经搜索机制,并结合外部原始记忆以表示查询,NPSM在CUHK-SYSU与PRW数据集上达到最先进性能,mAP最高提升2.4%,top-1准确率最高提升2.5%。

ABSTRACT

We investigate the problem of person search in the wild in this work. Instead of comparing the query against all candidate regions generated in a query-blind manner, we propose to recursively shrink the search area from the whole image till achieving precise localization of the target person, by fully exploiting information from the query and contextual cues in every recursive search step. We develop the Neural Person Search Machines (NPSM) to implement such recursive localization for person search. Benefiting from its neural search mechanism, NPSM is able to selectively shrink its focus from a loose region to a tighter one containing the target automatically. In this process, NPSM employs an internal primitive memory component to memorize the query representation which modulates the attention and augments its robustness to other distracting regions. Evaluations on two benchmark datasets, CUHK-SYSU Person Search dataset and PRW dataset, have demonstrated that our method can outperform current state-of-the-arts in both mAP and top-1 evaluation protocols.

研究动机与目标

  • 解决两阶段人像搜索方法的局限性,此类方法依赖独立的检测与重识别模块,易受错误传播与干扰物影响。
  • 克服穷举成对匹配的低效与不准确问题,通过实现从粗到精的搜索策略,逐步聚焦于最相关区域。
  • 将查询外观信息作为内部记忆集成,以引导注意力机制并抑制复杂场景中的干扰。
  • 开发一种神经搜索机制,可动态选择并优化子区域进行匹配,提升在复杂场景下的鲁棒性与准确性。

提出的方法

  • 提出基于卷积LSTM单元的神经搜索网络(NSN),用于建模区域提议的时空序列,实现递归区域优化。
  • 引入外部原始记忆组件,用于存储并持续更新查询人像的外观嵌入,以引导注意力与过滤。
  • 利用查询记忆调制注意力机制,使模型能够选择性聚焦于有希望的子区域,同时抑制外观相似的干扰物。
  • 实施递归搜索策略,每一步根据注意力得分与记忆引导的置信度缩小搜索区域,模拟人类视觉搜索行为。
  • 通过联合优化检测与重识别任务,端到端训练NPSM框架,无需单独的检测器与re-ID网络。
  • 利用记忆增强的注意力机制,提升对低分辨率、杂乱背景及跨摄像头外观差异的鲁棒性。

实验结果

研究问题

  • RQ1基于查询外观递归缩小搜索区域的递归记忆增强神经搜索机制,能否提升人像搜索的准确性?
  • RQ2将查询人像的原始记忆集成后,对注意力聚焦及在复杂场景中对干扰物的鲁棒性有何影响?
  • RQ3在真实世界人像搜索基准上,所提出的NPSM相较于两阶段检测-重识别流水线,在mAP与top-1准确率方面提升程度如何?
  • RQ4NPSM在不同画廊大小与不同检测设置下是否仍保持优越性能?
  • RQ5该模型能否在低分辨率、遮挡与背景杂乱等多样化真实场景条件下实现良好泛化?

主要发现

  • 在包含100张画廊图像的CUHK-SYSU数据集中,NPSM实现77.9%的mAP与81.2%的top-1准确率,分别优于OIM基线(75.5% mAP,78.7% top-1)2.4%与2.5%。
  • 在PRW数据集中,NPSM实现24.2%的mAP与53.1%的top-1准确率,分别优于OIM基线(21.3% mAP,49.9% top-1)2.9%与3.2%,即使每张图像仅提供一个边界框。
  • 在所有画廊大小设置(50至4000)下,NPSM均保持一致的优越性,平均性能较OIM提升约2%。
  • 注意力图可视化结果表明,即使存在视觉上相似的干扰物,NPSM仍能有效聚焦于正确的人像区域。
  • 该方法在低分辨率、杂乱背景及跨摄像头外观差异等挑战性条件下表现出强鲁棒性。
  • 消融实验验证,原始记忆与递归搜索的集成显著提升了定位准确性,并减少了无关区域的干扰。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。