[論文レビュー] Pose Invariant Embedding for Deep Person Re-identification
この論文は PoseBox ベースのポーズ不変埋め込み PIE を PoseBox Fusion (PBF) ネットワークを通じて学習し、元画像、PoseBox、およびポーズ推定信頼度を融合して、ポーズおよび検出器の変動下での人物再識別を頑健に行います。
Pedestrian misalignment, which mainly arises from detector errors and pose variations, is a critical problem for a robust person re-identification (re-ID) system. With bad alignment, the background noise will significantly compromise the feature learning and matching process. To address this problem, this paper introduces the pose invariant embedding (PIE) as a pedestrian descriptor. First, in order to align pedestrians to a standard pose, the PoseBox structure is introduced, which is generated through pose estimation followed by affine transformations. Second, to reduce the impact of pose estimation errors and information loss during PoseBox construction, we design a PoseBox fusion (PBF) CNN architecture that takes the original image, the PoseBox, and the pose estimation confidence as input. The proposed PIE descriptor is thus defined as the fully connected layer of the PBF network for the retrieval task. Experiments are conducted on the Market-1501, CUHK03, and VIPeR datasets. We show that PoseBox alone yields decent re-ID accuracy and that when integrated in the PBF network, the learned PIE descriptor produces competitive performance compared with the state-of-the-art approaches.
研究の動機と目的
- 歩行者のポーズ変動と検出器エラーによる再識別の誤 Alignment を解消する。
- PoseBox を用いてポーズを正規化し、ポーズ推定エラーを軽減する三-stream PoseBox Fusion を提案する。
- 標準ベンチマークで最先端手法に匹敵する頑健な PIE 記述子を学習する。
提案手法
- CMP ベースのポーズ推定とアフィン射影によって検出された身体関節から PoseBox を構築し、三種類 (PoseBox1, PoseBox2, PoseBox3) に分ける。
- PoseBox、元画像、および 14 次元のポーズ推定信頼度ベクトルを入力とする三-stream PoseBox Fusion (PBF) ネットワークを導入する;二つの画像ストリームは個別の CNN を持ち、出力と投影信頼度ベクトルを最終 FC 層の前で結合する。
- PIE を融合後の全結合 (FC) 活性化として定義する(AlexNet の場合 PIE(A, FC7)/PIE(A, FC8) または ResNet-50 の場合 PIE(R, Pool5)/PIE(R, FC))。
- 三つの入力に対応する三つの softmax 損失の和で訓練する;PIE 埋め込みに ReLU を適用し、検索にはユークリッド距離を用いる。
実験結果
リサーチクエスチョン
- RQ1PoseBox を用いた正規化はポーズや検出器由来のミスアラインメントの下で再識別性能を改善するか。
- RQ2ポーズ推定信頼度を含む多流融合は、単一ストリームの PoseBox や元画像のベースラインより性能が上回るか。
- RQ3PoseBox 構築における腕/頭を含めることは再識別精度にどのような影響を与えるか。
- RQ4Market-1501、CUHK03、VIPeR に対する PIE は最先端手法とどう比較されるか。
主な発見
| 手法 | Dim | Market-1501 Rank-1 | Market-1501 Rank-5 | Market-1501 Rank-10 | Market-1501 Rank-20 | Market-1501 mAP | CUHK03 Rank-1 | CUHK03 Rank-5 | CUHK03 Rank-10 | CUHK03 Rank-20 | CUHK03 mAP | VIPeR Rank-1 | VIPeR Rank-5 | VIPeR Rank-10 | VIPeR Rank-20 | VIPeR mAP |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Baseline1 (R, Pool5) | 2,048 | 73.02 | 87.44 | 91.24 | 94.70 | 47.62 | 51.60 | 79.60 | 87.70 | 95.00 | 23.42 | 42.31 | 51.96 | 63.80 | - | |
| Baseline1 (R, FC) | 751 | 70.58 | 84.95 | 90.02 | 93.53 | 45.84 | 54.80 | 84.20 | 91.70 | 97.60 | 15.85 | 28.80 | 37.41 | 47.85 | - | |
| PIE (R, Pool5) | 4,108 | 78.65 | 90.26 | 93.59 | 95.69 | 53.87 | 57.10 | 84.60 | 91.40 | 96.20 | 43.01 | 60.22 | 71.?? | ??.?? | 60.22 | |
| PIE (R, FC) | 751 | 75.12 | 88.27 | 92.28 | 94.77 | 51.57 | 61.50 | 89.30 | 94.50 | 97.60 | 23.80 | 37.88 | 47.31 | 56.55 | - | |
| PIE (A, FC7) | 8,206 | 64.61 | 82.07 | 87.83 | 91.75 | 38.95 | 59.80 | 85.35 | 91.85 | 95.85 | 21.77 | 38.04 | 46.61 | 56.61 | - | |
| PIE (A, FC8) | 751 | 65.68 | 82.51 | 87.89 | 91.63 | 41.12 | 62.40 | 88.00 | 93.70 | 96.50 | 18.10 | 31.20 | 38.92 | 49.40 | - |
- PIE は Market-1501、CUHK03、VIPeR のデータセットで強力なベースラインを一貫して上回る。
- Market-1501 では ResNet-50 を用いた PIE は rank-1 が 78.65%、mAP が 53.87%(PIE, Pool5/FC variant)を達成。
- PIE (Pool5, img) および PIE (Pool5, pb) の変種は Baseline1 および Baseline2 を各指標で上回り、元画像と PoseBox の効果的な融合を示す。
- PoseBox2(胴体+脚+腕)は PoseBox1(胴体+脚)より優れており、PoseBox3(頭部を追加)は僅かな利得を与える。一方、PBF との融合はこれらのギャップを縮小する。
- AlexNet 版 PIE および ResNet-50 版 PIE は競合的な最先端結果に達し、PIE+Kissme がいくつかのベンチマークでトップ性能を実現。
- アブレーション研究では元画像や PoseBox ストリームを削除すると性能が低下することが示され、融合と信頼度ベクトルからの信号の補完的価値を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。