Skip to main content
QUICK REVIEW

[论文解读] Spatially and Temporally Efficient Non-local Attention Network for Video-based Person Re-Identification

Chih‐Ting Liu, Chih-Wei Wu|arXiv (Cornell University)|Aug 5, 2019
Video Surveillance and Tracking Methods被引用 52
一句话总结

本文介绍 NVAN,一种用于视频基于人重新识别的非局部视频注意力网络,以及 STE-NVAN,在保持精度的同时降低计算量,在 MARS 上达到最先进的结果,在 DukeV 上具有竞争力。

ABSTRACT

Video-based person re-identification (Re-ID) aims at matching video sequences of pedestrians across non-overlapping cameras. It is a practical yet challenging task of how to embed spatial and temporal information of a video into its feature representation. While most existing methods learn the video characteristics by aggregating image-wise features and designing attention mechanisms in Neural Networks, they only explore the correlation between frames at high-level features. In this work, we target at refining the intermediate features as well as high-level features with non-local attention operations and make two contributions. (i) We propose a Non-local Video Attention Network (NVAN) to incorporate video characteristics into the representation at multiple feature levels. (ii) We further introduce a Spatially and Temporally Efficient Non-local Video Attention Network (STE-NVAN) to reduce the computation complexity by exploring spatial and temporal redundancy presented in pedestrian videos. Extensive experiments show that our NVAN outperforms state-of-the-arts by 3.8% in rank-1 accuracy on MARS dataset and confirms our STE-NVAN displays a much superior computation footprint compared to existing methods.

研究动机与目标

  • 将视频的空间和时间特性纳入视频基于重识别的多层特征表示。
  • 使用非局部注意力对低层和高层特征进行细化,以捕捉跨帧的全局上下文。
  • 通过利用行人视频中的时空冗余,在不牺牲性能的情况下降低计算量。

提出的方法

  • 在 ResNet-50 主干中插入非局部注意力层,在多个特征层次融合时空上下文(NVAN)。
  • 使用受限随机采样(RRS)从视频中选择帧,以实现高效的训练和测试。
  • 引入特征池化层(FPL),使用3D平均池化和批量归一化来创建最终序列特征。
  • 应用两种复杂度降低策略:空间约简非局部层(将特征分组为水平条带)和时序层次化约简(帧-特征池化以降低时序维度)。
  • 使用交叉熵和软边界批次硬对三元组损失的组合进行训练;经验发现:对最终特征使用交叉熵,对 BN 之前的特征使用三元组损失。

实验结果

研究问题

  • RQ1非局部注意力层是否能通过在序列中细化中间层和高层特征来提升视频基于重识别的性能?
  • RQ2在多个特征层次中加入空间和时间信息对重识别性能有何影响?
  • RQ3在不显著损失准确性的情况下,如何显著降低非局部视频注意力的计算量?
  • RQ4空间约简与时序层次化约简是否协同作用,使 STE-NVAN 在效率和准确度上超越现有方法?

主要发现

  • NVAN 在 MARS 上以 3.8% 的 rank-1 准确率领先于最先进的基于视频的 Re-ID 方法。
  • STE-NVAN 将 FLOP 降低 72.7%,在 MARS 上的 rank-1 仅损失 1.1%。
  • NVAN 在 MARS 与 DukeV 数据集上相对于带非局部层的 ResNet-50 的基线,在 R1 和 mAP 上取得显著提升。
  • 空间约简和时序约简分别在大幅降低 FLOP 的同时带来最小的准确损失;综合的 STE-NVAN 实现了最佳的效率与准确性权衡。
  • 在 MARS 上,NVAN 达到 90.0% R1 和 82.8% mAP;STE-NVAN 达到 88.9% R1 和 81.2% mAP,且 FLOP 低于 NVAN。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。