QUICK REVIEW

[論文レビュー] Jointly Attentive Spatial-Temporal Pooling Networks for Video-based Person Re-Identification

Shuangjie Xu, Yu Cheng|arXiv (Cornell University)|Aug 3, 2017

Video Surveillance and Tracking Methods被引用数 40

ひとこと要約

本稿では、動画ベースの人物再識別における相互依存性を特徴表現学習中にモデル化するための、共同空間時系列アテンションプーリングネットワークであるASTPNを提案する。空間的（フレームごとの領域）および時系列的（シーケンス全体のフレーム）の両次元において類似度に敏感なアテンションを活用することで、iLIDS-VID、PRID-2011、MARSの各データセットで最先端性能を達成し、計算コストの増加を最小限に抑えた。

ABSTRACT

Person Re-Identification (person re-id) is a crucial task as its applications in visual surveillance and human-computer interaction. In this work, we present a novel joint Spatial and Temporal Attention Pooling Network (ASTPN) for video-based person re-identification, which enables the feature extractor to be aware of the current input video sequences, in a way that interdependency from the matching items can directly influence the computation of each other's representation. Specifically, the spatial pooling layer is able to select regions from each frame, while the attention temporal pooling performed can select informative frames over the sequence, both pooling guided by the information from distance matching. Experiments are conduced on the iLIDS-VID, PRID-2011 and MARS datasets and the results demonstrate that this approach outperforms existing state-of-art methods. We also analyze how the joint pooling in both dimensions can boost the person re-id performance more effectively than using either of them separately.

研究の動機と目的

既存の動画ベースの人物再識別手法が、照合ペア同士の相互影響を無視してシーケンス表現を独立して扱うという限界を解決する。
プーリング段階で2つの動画シーケンス間の依存関係をモデル化することで、特徴表現を向上させ、人間の視覚的注意メカニズムにインspiredする。
類似度駆動のアテンションを用いて、判別性の高い空間的領域と情報量の多い時系列フレームを同時に統合的に注目するフレームワークを構築する。
個別のアテンション機構や標準的なプーリングと比較して、共同空間時系列アテンションが再識別性能を著しく向上させることを示す。
特に未学習のデータ分布に対しての汎化性を確保するため、クロスデータセット評価を実施する。

提案手法

CNN-RNNバックボーンを用いて、2つの入力動画シーケンスから深層特徴を抽出するシアンズネットワークアーキテクチャを採用する。
2つのシーケンスの特徴間の類似度スコアを計算し、空間的および時系列的両次元におけるアテンション学習を誘導する。
シーケンス間の類似度に基づいて判別性の高い領域を強調するアテンションベクトルを用いて、各フレーム内の空間的プーリングを実行する。
類似度駆動のアテンションを用いてキーフレームを選択することで、時系列的プーリングを実行し、シーケンスレベルの表現を向上させる。
得られた注目特徴を、シアンズ比較ヘッドを介して最終的な分類または照合に使用する。
判別性の高い特徴学習と照合精度の最適化を目的として、対照損失またはトリプルット損失を用いて、ネットワーク全体をエンドツーエンドで学習する。

実験結果

リサーチクエスチョン

RQ1動画再識別において、空間的および時系列的次元を同時に注目することで、独立したアテンションや標準的プーリングと比較して性能が向上するか？
RQ2特徴プーリング段階で2つの動画シーケンス間の依存関係をモデル化することで、独立処理と比較して照合精度はどのように変化するか？
RQ3提案されたアテンション機構は、視点の変化、遮蔽、照明変化といった困難な条件下でもどれほど耐性を示すか？
RQ41つのデータセットで学習したモデルと比較して、ASTPNの共同空間時系列アテンション機構は、異なるデータセット間でより良い汎化性を示すか？
RQ5単一ショットおよびマルチショットのテスト状況において、ASTPNの性能は最先端手法と比較してどうなるか？

主な発見

ASTPNは、iLIDS-VID、PRID-2011、MARSの各データセットで最先端性能を達成し、RNN-CNNやmax/meanプーリングベースラインと比較して優れている。
PRID-2011では、rank 2の精度でRNN-CNNベースラインを約10%上回り、共同アテンションによる顕著な性能向上を示している。
iLIDS-VIDでは、RNN-CNNベースラインと比較してrank 3の精度が5%向上し、より優れた判別力を持っていることを示している。
より困難なMARSデータセットでは、ASTPNは時系列のみのアテンションを持つATPNを約5%上回り、共同空間時系列学習の有効性を裏付けている。
クロスデータセットテストでは、iLIDS-VIDで学習し、PRID-2011の50%でテストした場合、ASTPNはrank-1で30%の精度を達成し、RNN-CNNベースラインを上回り、優れた汎化性能を示している。
ASTPNを用いた動画ベースの再識別は、単一ショット手法と比較してrank-1精度を100%向上させ、時間的モデリングの重要性を確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。