[論文レビュー] A Video Is Worth Three Views: Trigeminal Transformers for Video-based Person Re-identification
本論文は、三叉特徴抽出器、自己視点トランスフォーマー、視点間トランスフォーマーを用いて、空間・時間・空間-時間の視点を捉え、ビデオベースの人物再識別性能を向上させる Trigeminal Transformers (TMT) を提案する。
Video-based person re-identification (Re-ID) aims to retrieve video sequences of the same person under non-overlapping cameras. Previous methods usually focus on limited views, such as spatial, temporal or spatial-temporal view, which lack of the observations in different feature domains. To capture richer perceptions and extract more comprehensive video representations, in this paper we propose a novel framework named Trigeminal Transformers (TMT) for video-based person Re-ID. More specifically, we design a trigeminal feature extractor to jointly transform raw video data into spatial, temporal and spatial-temporal domain. Besides, inspired by the great success of vision transformer, we introduce the transformer structure for video-based person Re-ID. In our work, three self-view transformers are proposed to exploit the relationships between local features for information enhancement in spatial, temporal and spatial-temporal domains. Moreover, a cross-view transformer is proposed to aggregate the multi-view features for comprehensive video representations. The experimental results indicate that our approach can achieve better performance than other state-of-the-art approaches on public Re-ID benchmarks. We will release the code for model reproduction.
研究の動機と目的
- 単一の視点を超えるマルチビュー観測を活用して、堅牢なビデオベースの人物再識別を動機づける。
- ビデオシーケンスから空間・時間・空間-時間表現を生成する三叉特徴抽出器を提案する。
- 各ビューを精練する自己視点トランスフォーマーを開発し、マルチビューの手がかりを統合する視点間トランスフォーマーを提案する。
- 公開ビデオ再識別ベンチマークで最先端または競争力のある性能を示す。
提案手法
- ビデオフレームから X^s, X^t, X^{st} を生成する3つの非共有分岐を備えた三叉特徴抽出器を導入する。
- 特徴を時系列ドメインと空間ドメインに射影するよう、時系列自己注意プーリングと空間自己注意プーリングを適用する。
- 各ビューの自己視点トランスフォーマーを用いて局所特徴間の関係をモデル化する。
- 3つのビュー間の相互作用をモデル化し、それらを統合して統一されたビデオ表現を得るための視点間トランスフォーマーを採用する。
- OIM損失と検証損失でトレーニングし、テスト時にはマルチビュー特徴を結合して検索を行う。
実験結果
リサーチクエスチョン
- RQ1空間・時間・空間-時間の視点は、ビデオベースのRe-IDに補完的な手掛かりを提供できるか?
- RQ2自己視点トランスフォーマーは単一視点特徴を改善し、視点間トランスフォーマーはマルチビューの統合を改善するか?
- RQ3シーケンス長、空間マップサイズ、トランスフォーマーの深さは、標準ベンチマークの性能にどう影響するか?
主な発見
| 方法 | MARS mAP | MARS Rank-1 | MARS Rank-5 | MARS Rank-20 | iLIDS-VID Rank-1 | iLIDS-VID Rank-5 | iLIDS-VID Rank-20 | PRID2011 Rank-1 | PRID2011 Rank-5 | PRID2011 Rank-20 |
|---|---|---|---|---|---|---|---|---|---|---|
| SeeForest | 50.7 | 70.6 | 90.0 | 97.6 | 55.2 | 86.5 | 97.0 | 79.4 | 94.4 | 99.3 |
| ASTPN | - | - | - | - | 62 | 86 | 98 | 77 | 95 | 99 |
| Snippet | 76.1 | 86.3 | 94.7 | 98.2 | 85.4 | 96.7 | 99.5 | 93.0 | 99.3 | 100 |
| STAN | 65.8 | 82.3 | - | - | 80.2 | - | - | 93.2 | - | - |
| STMP | 72.7 | 84.4 | 93.2 | 96.3 | 84.3 | 96.8 | 99.5 | 92.7 | 98.8 | 99.8 |
| M3D | 74.0 | 84.3 | 93.8 | 97.7 | 74.0 | 94.3 | - | 94.4 | 100 | - |
| Attribute | 78.2 | 87.0 | 95.4 | 98.7 | 86.3 | 87.4 | 99.7 | 93.9 | 99.5 | 100 |
| VRSTC | 82.3 | 88.5 | 96.5 | 97.4 | 83.4 | 95.5 | 99.5 | - | - | - |
| GLTR | 78.5 | 87.0 | 95.8 | 98.2 | 86.0 | 98.0 | - | 95.5 | 100 | - |
| COSAM | 79.9 | 84.9 | 95.5 | 97.9 | 79.6 | 95.3 | - | - | - | - |
| MGRA | 85.9 | 88.8 | 97.0 | 98.5 | 88.6 | 98.0 | 99.7 | 95.9 | 99.7 | 100 |
| STGCN | 83.7 | 89.9 | - | - | - | - | - | - | - | - |
| AFA | 82.9 | 90.2 | 96.6 | - | 88.5 | 96.8 | 99.7 | - | - | - |
| TMT(Ours) | 85.8 | 91.2 | 97.3 | 98.8 | 91.3 | 98.6 | 100 | 96.4 | 99.3 | 100 |
- 三叉特徴抽出器は、ベースラインよりもベンチマーク全体で顕著なマージンで mAP と Rank-1 を向上させる。
- 各ビューの自己視点トランスフォーマーは、三叉特徴抽出器単独と比較して性能を大幅に向上させる。
- 視点間トランスフォーマーは、マルチビューの手掛かりを統合することで性能をさらに向上させる。
- MARS では mAP 85.8、Rank-1 91.2 を達成; iLIDS-VID では Rank-1 91.3; PRID2011 では Rank-1 96.4、Rank-20 100.0。
- 最先端手法と比較して、TMT は競争力のあるまたは優れた結果を示し、報告された手法の中で3データセット全てで最高の Rank-1 を達成。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。