QUICK REVIEW

[論文レビュー] Diversity Regularized Spatiotemporal Attention for Video-based Person Re-identification

Shuang Li, Sławomir Bąk|arXiv (Cornell University)|Mar 27, 2018

Video Surveillance and Tracking Methods参考文献 24被引用数 51

ひとこと要約

この論文は、複数の多様な空間アテンションモデルと時間アテンションを備えた時空間アテンションフレームワークを導入し、多様性項で正則化して動画ベースの人物再識別を改善します。PRID2011、iLIDS-VID、MARSで最先端を上回ります。

ABSTRACT

Video-based person re-identification matches video clips of people across non-overlapping cameras. Most existing methods tackle this problem by encoding each video frame in its entirety and computing an aggregate representation across all frames. In practice, people are often partially occluded, which can corrupt the extracted features. Instead, we propose a new spatiotemporal attention model that automatically discovers a diverse set of distinctive body parts. This allows useful information to be extracted from all frames without succumbing to occlusions and misalignments. The network learns multiple spatial attention models and employs a diversity regularization term to ensure multiple models do not discover the same body part. Features extracted from local image regions are organized by spatial attention model and are combined using temporal attention. As a result, the network learns latent representations of the face, torso and other body parts using the best available image patches from the entire video sequence. Extensive evaluations on three datasets show that our framework outperforms the state-of-the-art approaches by large margins on multiple metrics.

研究の動機と目的

フレームでの遮蔽や不整合にもかかわらず、頑健な動画ベースの人物再識別を動機づける。
自動的に多様な有識情報を含む身体部位を発見する時空間アテンションネットワークを開発する。
空間アテンションを正則化して冗長性を防ぎ、異なる部品検出器を促進する。
各部位の時間的アテンションを用いて時間を跨いだ領域レベルの特徴を集約し、コンパクトな動画記述子を形成する。

提案手法

各ビデオからNフレームを制限付きランダムサンプリングで選択する。
各フレーム内の識別可能な領域を局在化する複数の空間アテンションモデルを実装する。
Hellinger距離に基づく多様性正則化項を適用し、重複の少ない受容野を促進する。
各フレームの空間特徴を計算し、部位ごとの時系列アテンションで時間的に集約して、各空間部位のx_kを生成する。
x_kをK部位に渡って結合し Online Instance Matching (OIM) ロスで監督する。

実験結果

リサーチクエスチョン

RQ1多様で自動的に発見された空間アテンションモデルの集合は、動画再識別におけるフレーム整列と遮蔽処理を改善できるか。
RQ2Hellinger距離に基づく多様性正則化は部品検出器間の冗長性を減らし、認識精度を改善するか。
RQ3部位ごとの時間的アテンションは、動画全体の領域特徴を集約するためのグローバルプーリングと比較してどうか。
RQ4空間アテンションモデルの数（K）は再識別性能にどのような影響を与えるか。
RQ5提案手法は標準的な動画再識別データセットと比べて最先端とどう比較されるか。

主な発見

方法	PRID2011 ランク-1	iLIDS-VID ランク-1	MARS ランク-1	MARS mAP
Baseline	82.7	61.2	73.4	58.1
SpaAtn	84.2	64.9	74.5	59.3
SpaAtn+Q′	86.5	64.5	74.0	58.2
SpaAtn+Q	86.7	68.6	77.0	60.9
SpaAtn+Q+MaxPool	86.9	68.2	76.8	60.5
SpaAtn+Q+TemAtn	88.4	69.7	77.1	61.2
SpaAtn+Q+TemAtn+Ind	93.2	80.2	82.3	65.8

PRID2011、iLIDS-VID、およびMARSでランキング1位とmAP（MARS）を含む最先端を上回る。
多様な空間アテンション（K>1）は性能を向上させ、実験ではK=6付近で最大の利益を示した。
Hellinger距離を用いた多様性正則化は検出部位の識別性を向上させ、重複を減らす。
部位レベルの時間的アテンションは、フレームごとやグローバルプーリングのベースラインより強力な性能を示す。
最終の SpaAtn+Q+TemAtn+Ind 設定は、PRID2011で93.2%、iLIDS-VIDで80.2%、MARSで82.3%をランク1で達成。MARSのmAPは65.8。
Baselineおよびいくつかのバリアントと比較して、提案手法はデータセット全体で一貫して精度を向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。