[論文レビュー] Revisiting Temporal Modeling for Video-based Person ReID
この論文は、画像特徴と損失を固定した状態で、動画ベースの人物再識別のための4つの時系列モデリング手法を厳密に比較し、フレーム間情報を捉える時系列畳み込みアテンションネットワークを導入して、MARSで最高性能を達成します。
Video-based person reID is an important task, which has received much attention in recent years due to the increasing demand in surveillance and camera networks. A typical video-based person reID system consists of three parts: an image-level feature extractor (e.g. CNN), a temporal modeling method to aggregate temporal features and a loss function. Although many methods on temporal modeling have been proposed, it is hard to directly compare these methods, because the choice of feature extractor and loss function also have a large impact on the final performance. We comprehensively study and compare four different temporal modeling methods (temporal pooling, temporal attention, RNN and 3D convnets) for video-based person reID. We also propose a new attention generation network which adopts temporal convolution to extract temporal information among frames. The evaluation is done on the MARS dataset, and our methods outperform state-of-the-art methods by a large margin. Our source codes are released at https://github.com/jiyanggao/Video-Person-ReID.
研究の動機と目的
- 画像特徴抽出器と損失関数を固定したまま、動画ベースの人物再識別における異なる時系列モデリング戦略の影響を評価する。
- 共通ベースライン上で4つの時系列アーキテクチャ(時系列プーリング、時系列アテンション、RNN、3D CNN)を評価する。
- フレーム間情報を捉えるための時系列畳み込みを用いた新規アテンション生成ネットワークを提案する。
- MARSデータセットで再現性のある結果を提供し、コミュニティへソースコードを公開する。
提案手法
- FixResNet-50画像特徴抽出器とトリプレット + ソフトマックス損失を固定して、時系列手法間で公平な比較を可能にする。
- 2D-CNN特徴に対して3つの時系列集約アプローチを用いる:時系列プーリング(平均/最大)、時系列アテンション(ソフトマックスまたはシグモイド正規化を用いた2つの生成ネットワーク)、RNN(LSTM/GRU)バリアント。
- 代替クリップエンコーダとして3D CNN(3D ResNet-50)を評価する。
- フレーム間関係をモデル化する時系列畳み込みを用いたアテンション生成ネットワークを提案する。
- バッチハードトリプレット損失とクロスエントロピー損失で訓練し、それらを総損失として組み合わせる。
- 各手法でクリップ長さTを方法ごとに変えてMARSで評価し、mAPとCMC指標を報告する。
実験結果
リサーチクエスチョン
- RQ1画像特徴と損失が一定に保たれた場合、異なる時系列集約戦略はどのように比較されるか?
- RQ2RNNベースの時系列モデリングは、動画ベースの人物再識別において、より単純な集約手法より優れているか、それとも劣るか?
- RQ3時系列畳み込みに基づくアテンション機構は、既存のアテンション設計より時系列情報をよりよく捉えられるか?
- RQ4各時系列手法の全体的な性能はMARSデータセットでどうか、これらのアプローチは従来の最先端とどれくらい近づくか、あるいは追い越すことができるか?
主な発見
| mAP | CMC-1 | CMC-5 | CMC-10 | CMC-20 | |
|---|---|---|---|---|---|
| Zheng et al (2016) | 45.6 | 65.0 | 81.1 | - | 88.9 |
| Li et al (2017) | 56.1 | 71.8 | 86.6 | - | 93.1 |
| Liu et al (2017) | 51.7 | 73.7 | 84.9 | - | 91.6 |
| Zhou et al (2017) | 50.7 | 70.6 | 90.0 | - | 97.6 |
| Hermans et al (2017) | 67.7 | 79.8 | 91.4 | - | - |
| Ours (image) | 74.1 | 81.3 | 92.6 | 94.8 | 96.7 |
| Ours (3Dconv) | 70.5 | 78.5 | 90.9 | 93.9 | 95.9 |
| Ours (pool) | 76.5 | 83.3 | 93.0 | 95.3 | 96.8 |
| Ours (att) | 76.7 | 83.3 | 93.8 | 96.0 | 97.4 |
| Ours (RNN) | 73.9 | 81.6 | 92.8 | 94.7 | 96.3 |
| Hermans et al (re-rank) | 77.4 | 81.2 | 90.7 | - | - |
| Ours (re-rank) | 84.5 | 85.0 | 94.7 | 96.6 | 97.7 |
- 時系列プーリング(平均)は、画像ベースラインよりmAPで約2-3ポイント改善する。
- RNNベースの集約は、MARSにおいて画像ベースラインおよび時系列プーリングと比べて劣る。
- 時系列アテンションは空間-時系列畳み込みを用いた場合、空間FCベースのアテンションおよび3D CNNのベースラインをいくつかの指標で上回る。
- 時系列畳み込みベースのアテンション生成ネットワークは、時系列手法の中で最高の性能を示す。
- 彼らのバリアントの中で最も良い単一モデルは Ours (att) で、MARSで mAP 76.7、CMC-1 83.3、CMC-5 93.8、CMC-10 96.0、CMC-20 97.4。
- 再ランキングと組み合わせると、彼らの手法は mAP 84.5、CMC-1 85.0、CMC-5 94.7、CMC-10 96.6、CMC-20 97.7(再ランク後)に達する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。