Skip to main content
QUICK REVIEW

[論文レビュー] Spatially and Temporally Efficient Non-local Attention Network for Video-based Person Re-Identification

Chih‐Ting Liu, Chih-Wei Wu|arXiv (Cornell University)|Aug 5, 2019
Video Surveillance and Tracking Methods被引用数 52
ひとこと要約

本論文は、動画ベースの人物再識別のための非局所的なビデオ注意ネットワークであるNVANを導入し、精度を維持しつつ計算量を削減するSTE-NVANを提案しており、MARSで最先端の結果を達成し、DukeVで競争力のある結果を示している。

ABSTRACT

Video-based person re-identification (Re-ID) aims at matching video sequences of pedestrians across non-overlapping cameras. It is a practical yet challenging task of how to embed spatial and temporal information of a video into its feature representation. While most existing methods learn the video characteristics by aggregating image-wise features and designing attention mechanisms in Neural Networks, they only explore the correlation between frames at high-level features. In this work, we target at refining the intermediate features as well as high-level features with non-local attention operations and make two contributions. (i) We propose a Non-local Video Attention Network (NVAN) to incorporate video characteristics into the representation at multiple feature levels. (ii) We further introduce a Spatially and Temporally Efficient Non-local Video Attention Network (STE-NVAN) to reduce the computation complexity by exploring spatial and temporal redundancy presented in pedestrian videos. Extensive experiments show that our NVAN outperforms state-of-the-arts by 3.8% in rank-1 accuracy on MARS dataset and confirms our STE-NVAN displays a much superior computation footprint compared to existing methods.

研究の動機と目的

  • 動画ベースの Re-ID のために、空間的および時間的特徴を多段階の特徴表現に組み込む。
  • フレーム間のグローバルな文脈を捉えるために、低レベルと高レベルの特徴の両方を非局所注意を用いて精練する。
  • 歩行者ビデオの時空冗長性を利用して、性能を犠牲にせず計算を削減する。

提案手法

  • ResNet-50 バックボーンに非局所注意層を挿入し、複数の特徴レベルで空間-時間の文脈を融合する(NVAN)。
  • 効率的な訓練とテストのために、動画からフレームを選択する際に restricted random sampling (RRS) を用いる。
  • 3D平均プーリングとバッチ正規化を用いた Feature Pooling Layer(FPL)を導入し、最終シーケンス特徴を作成する。
  • 2つの計算量削減戦略を適用する:Spatial Reduction Non-local Layer(特徴を水平ストライプにグルーピング)と Temporal Hierarchical Reduction(フレーム特徴プーリングによる時間次元の削減)。
  • クロスエントロピーとソフトマージンバッチハードトリプレット損失の組み合わせで訓練する;経験的に:最終特徴に対するクロスエントロピーと BN 前の特徴に対するトリプレット損失が効果的である。

実験結果

リサーチクエスチョン

  • RQ1非局所注意層は系列全体を通して中間および高レベルの特徴を refin eして、動画ベースの Re-ID を改善できるか。
  • RQ2複数の特徴レベルで空間的・時間的情報を取り入れることは、Re-ID の性能にどのような影響を与えるか。
  • RQ3大きな精度の損失を伴わずに、非局所ビデオ注意の計算を大幅に削減するにはどうすればよいか。
  • RQ4空間的削減と時間的階層的削減は、STE-NVAN が既存手法を効率性と精度の両面で上回るのに有効か。

主な発見

  • NVAN は MARS で rank-1 精度において最先端の video-based Re-ID 手法を 3.8% 上回る。
  • STE-NVAN は NVAN に比べて FLOP を 72.7% 節約しつつ、MARS で rank-1 の損失を 1.1% にとどめる。
  • NVAN は ResNet-50 に非局所層を追加したベースラインを、MARS と DukeV の両データセットで R1 および mAP において有意なマージンで改善する。
  • Spatial Reduction および Temporal Reduction はそれぞれ FLOP を大幅に削減しつつ、精度の低下を最小限に抑える。両者を組み合わせた STE-NVAN は、効率と精度のトレードオフで最高を達成する。
  • MARS では、NVAN は 90.0% R1 および 82.8% mAP を達成し、STE-NVAN は 88.9% R1 および 81.2% mAP を達成し、NVAN よりも低い FLOP。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。