QUICK REVIEW

[論文レビュー] Spatiotemporal Transformer for Video-based Person Re-identification

Tianyu Zhang, Longhui Wei|arXiv (Cornell University)|Mar 30, 2021

Video Surveillance and Tracking Methods参考文献 42被引用数 30

ひとこと要約

この論文は、映像ベースの人物再識別（ReID）のためのSpatiotemporal Transformer（STT）を提案し、制約付きアテンションとGlobal Transformerで過学習を抑制し、synthesized data pre-trainingを用いて、MARS、DukeMTMC-VideoReID、 LS-VIDで最先端の結果を達成する。

ABSTRACT

Recently, the Transformer module has been transplanted from natural language processing to computer vision. This paper applies the Transformer to video-based person re-identification, where the key issue is to extract the discriminative information from a tracklet. We show that, despite the strong learning ability, the vanilla Transformer suffers from an increased risk of over-fitting, arguably due to a large number of attention parameters and insufficient training data. To solve this problem, we propose a novel pipeline where the model is pre-trained on a set of synthesized video data and then transferred to the downstream domains with the perception-constrained Spatiotemporal Transformer (STT) module and Global Transformer (GT) module. The derived algorithm achieves significant accuracy gain on three popular video-based person re-identification benchmarks, MARS, DukeMTMC-VideoReID, and LS-VID, especially when the training and testing data are from different domains. More importantly, our research sheds light on the application of the Transformer on highly-structured visual data.

研究の動機と目的

映像ベースの人物再識別（ReID）に対するトランスフォーマーアーキテクチャの有効性を動機づける。
限定された映像ReIDデータに対して、制約とグローバルアテンションを用いてトランスフォーマーの過学習を緩和する。
初期化と一般化を改善する合成データ前提訓練パイプラインを提案する。
標準的な映像ベースReIDベンチマークで経験的な利得を示し、アテンション挙動を分析する。

提案手法

画像パッチ上で動作するSpatial Transformer（ST）とフレームごとのトークンをトラックレット表現に集約するTemporal Transformer（TT）を用いた二段階のSpatiotemporal Transformer（STT）を提案する。
制約付きアテンション学習を適用：部分的な制約と全画像クロスエントロピー損失を組み合わせて限定領域への過度なフォーカスを防ぎ、時系列制約としてフレームレベルのトリプレット監督と時間方向のアテンションエントロピー損失を組み合わせる。
Tracklet内のすべてのフレームパッチを処理するGlobal Transformer（GT）ブランチを導入し、フレーム間パッチの関係性をモデル化する。
現実データの不足を緩和し、実データでの微調整前の初期化を改善するために、合成映像データ（UnrealPerson）を前訓練に使用する。
CNNバックボーン（ResNet-50の最初の3ブロック）で訓練し、特徴マップをトークンへパッチ化し、空間情報と時間情報を統合するために追加の空間トークンと時刻トークンを使用する。

実験結果

リサーチクエスチョン

RQ1Transformerベースのアーキテクチャは映像ベースの人物ReIDタスクに有効に適用できるか。
RQ2限定的な映像ReIDデータで過学習を防ぐためにアテンション機構をどのように制約すべきか。
RQ3グローバルアテンションブランチはフレーム間のパッチを結びつけることでSTTを補完するか。
RQ4合成映像前訓練は一般化と実際のReIDベンチマークでの性能を改善するか。

主な発見

提案された制約付きSTTとGlobal Transformerは、CNNベースのベースラインおよびバニラTransformerよりも大幅に優れており、特にドメイン横断評価で優位である（MARS、Duke、LS-VID）。
制約付き空間アテンションは過学習を抑制し、ドメイン横断転移を改善する（例：MARSで訓練するとDukeのrank-1が50.6%から60.5%に改善）。
グローバルアテンション学習は、フレーム間のパッチ関係を有効にすることで顕著な利得を提供する（例：Dukeのrank-1がGTで約3.9%改善）。
合成映像前訓練は3つのデータセットすべてで直接転移の substantial な改善をもたらし、初期化と収束を改善。
アブレーションを通じて、最も強力な構成はSpatial+Temporal制約、Globalアテンション、合成前訓練を組み合わせたもので、報告された中で最高の結果を達成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。