Skip to main content
QUICK REVIEW

[论文解读] Learning Deep Neural Networks for Vehicle Re-ID with Visual-spatio-temporal Path Proposals

Yantao Shen, Tong Xiao|arXiv (Cornell University)|Aug 13, 2017
Video Surveillance and Tracking Methods参考文献 33被引用 32
一句话总结

本文提出了一种用于车辆重识别的两阶段深度学习框架,通过利用视觉-时空路径提议来提高匹配准确率。该方法使用带有深度势函数的链式马尔可夫随机场(MRF)生成候选路径,随后通过结合Siamese-CNN与Path-LSTM计算相似度得分,最终在VeRi-776数据集上实现了最先进性能,路径提议质量的平均Jaccard相似度达到96.39%。

ABSTRACT

Vehicle re-identification is an important problem and has many applications in video surveillance and intelligent transportation. It gains increasing attention because of the recent advances of person re-identification techniques. However, unlike person re-identification, the visual differences between pairs of vehicle images are usually subtle and even challenging for humans to distinguish. Incorporating additional spatio-temporal information is vital for solving the challenging re-identification task. Existing vehicle re-identification methods ignored or used over-simplified models for the spatio-temporal relations between vehicle images. In this paper, we propose a two-stage framework that incorporates complex spatio-temporal information for effectively regularizing the re-identification results. Given a pair of vehicle images with their spatio-temporal information, a candidate visual-spatio-temporal path is first generated by a chain MRF model with a deeply learned potential function, where each visual-spatio-temporal state corresponds to an actual vehicle image with its spatio-temporal information. A Siamese-CNN+Path-LSTM model takes the candidate path as well as the pairwise queries to generate their similarity score. Extensive experiments and analysis show the effectiveness of our proposed method and individual components.

研究动机与目标

  • 为解决车辆重识别任务中车辆间细微视觉差异的挑战。
  • 将车辆图像之间的复杂时空关系纳入考虑,以提升匹配置信度。
  • 将视觉-时空路径建模为正则化结构先验,用于车辆重识别。
  • 开发一种基于深度学习的方法,有效捕捉超越简单成对亲和力的时空动态特性。

提出的方法

  • 使用带有深度学习成对势函数的链式马尔可夫随机场(MRF)模型,从查询图像对中生成候选视觉-时空路径。
  • 路径中的每个视觉-时空状态对应一个具有空间和时间坐标的车辆图像。
  • 使用Siamese-CNN从查询图像对和候选路径中提取深度特征。
  • Path-LSTM网络处理候选路径上视觉-时空状态的序列,以估计路径有效性并优化相似度得分。
  • 应用最大和算法高效优化链式MRF以生成路径提议。
  • 端到端训练框架,结合Siamese-CNN与Path-LSTM,联合优化特征学习与路径有效性评分。

实验结果

研究问题

  • RQ1结构化的视觉-时空路径提议是否能超越仅基于外观的匹配方式,提升车辆重识别性能?
  • RQ2深度神经网络在建模复杂时空势函数以生成路径方面效果如何?
  • RQ3通过Path-LSTM引入路径有效性后,与直接使用Siamese-CNN匹配相比,相似度估计的改进程度如何?
  • RQ4路径提议的质量在多大程度上影响最终的重识别准确率?

主要发现

  • 所提方法在VeRi-776数据集上达到最先进性能,相比Chain MRF基线模型,mAP提升10%,top-1准确率提升25%。
  • 仅Path-LSTM组件相比Chain MRF,mAP提升10%,top-1准确率提升25%,证明其作为正则化先验的有效性。
  • Siamese-CNN+Path-LSTM模型相比Siamese-Visual模型,mAP提升约25%,top-1准确率提升约40%,凸显时空建模的重要性。
  • 带有深度势函数的链式MRF在真实路径对比中达到96.39%的平均Jaccard相似度(AJS),表明路径提议生成质量很高。
  • 即使将ResNet50替换为VGG16,该方法在流水线中仍优于VGG16基线模型,证实了框架的鲁棒性。
  • 每对查询图像的平均推理时间仅为0.016秒,得益于高效的计算分摊机制,使该方法适用于大规模部署。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。