[論文レビュー] Localization Guided Learning for Pedestrian Attribute Recognition
LG-Netは属性特化の局所化を導入して局所特徴抽出を導く。CAM-guided local featuresとglobal featuresを融合することで、RAPおよびPA-100Kで複数の指標において最新の結果を達成。
Pedestrian attribute recognition has attracted many attentions due to its wide applications in scene understanding and person analysis from surveillance videos. Existing methods try to use additional pose, part or viewpoint information to complement the global feature representation for attribute classification. However, these methods face difficulties in localizing the areas corresponding to different attributes. To address this problem, we propose a novel Localization Guided Network which assigns attribute-specific weights to local features based on the affinity between proposals pre-extracted proposals and attribute locations. The advantage of our model is that our local features are learned automatically for each attribute and emphasized by the interaction with global features. We demonstrate the effectiveness of our Localization Guided Network on two pedestrian attribute benchmarks (PA-100K and RAP). Our result surpasses the previous state-of-the-art in all five metrics on both datasets.
研究の動機と目的
- 低解像度と視点変動下で頑健な歩行者属性認識を動機付ける。
- 属性特異的局所特徴を学習する局所化 guida Networkを提案する。
- 属性の正確な局在化を導くためにクラスアクティベーションマップを活用する。
- グローバル特徴とローカル特徴を相関度に基づく重み付け機構で統合する。
- 大規模な歩行者属性データセットで最先端の性能を示す。
提案手法
- 固定グローバルブランチとローカルブランチを備える二分支LG-Net。
- グローバルブランチは属性のクラスアクティベーションマップ(CAM)とクラスアクティベーションボックスを生成する。
- ローカルブランチはEdgeBoxes提案からROIプーリング特徴を抽出する。
- Localization Guidance ModuleはCAM-ROI親和性を用いてローカル特徴をIoUで重み付けする。
- グローバル特徴と局所誘導特徴の要素ごとの和で属性予測を行う。
- 二段階トレーニング:グローバルブランチをImageNetプリトレーニングモデルから初期化し、LG-Netトレーニング中は局所化コンポーネントを固定する。
実験結果
リサーチクエスチョン
- RQ1属性特異的局所化は歩行者属性の局所特徴抽出の信頼性を改善できるか。
- RQ2CAM-guided localizationとROI重み付けローカル特徴は従来の部位/姿勢/アテンションベース手法を上回るか。
- RQ3提案されたグローバル特徴とローカル特徴の融合は監視条件下での多ラベル属性予測に有効か。
- RQ4局所化コンポーネントは全体性能と局所化精度にどのような影響を与えるか。
主な発見
| 手法 | RAP_mA | RAP_Accu | RAP_Prec | RAP_Recall | RAP_F1 | PA100K_mA | PA100K_Accu | PA100K_Prec | PA100K_Recall | PA100K_F1 |
|---|---|---|---|---|---|---|---|---|---|---|
| ELF+SVM | 69.94 | 29.29 | 32.84 | 71.18 | - | 44.95 | - | - | - | - |
| CNN+SVM | 72.28 | 31.72 | 35.75 | 71.78 | - | - | - | - | - | - |
| ACN | 69.66 | 62.61 | 80.12 | 72.26 | 75.98 | - | - | - | - | - |
| DeepMar | 73.79 | 62.02 | 74.92 | 76.21 | 75.56 | 75.56 | 80.42 | 81.32 | 80.42 | 81.32 |
| HP-Net | 76.12 | 65.39 | 77.33 | 78.79 | 78.05 | 78.05 | 82.97 | 82.53 | 82.09 | 82.53 |
| JRL | 77.81 | - | 78.11 | 78.98 | 78.58 | - | - | - | - | - |
| VeSPA | 77.70 | 67.35 | 79.51 | 79.67 | 79.59 | 79.59 | 84.99 | 81.49 | 83.20 | 83.20 |
| Inception-v2 | 75.43 | 65.94 | 79.78 | 77.05 | 78.39 | 78.39 | 84.12 | 80.30 | 82.17 | 82.17 |
| LG-Net | 78.68 | 68.00 | 80.36 | 79.82 | 80.09 | 80.09 | 76.96 | 83.17 | 85.04 | 85.04 |
- LG-NetはRAPとPA-100Kの5つの評価指標で従来の最先端を上回った。
- RAPではLG-NetがmA 78.68、Accu 68.00、Prec 80.36、Recall 79.82、F1 80.09を達成。
- PA-100KではLG-NetがmA 80.09、Accu 76.96、Prec 83.17、Recall 85.04、F1 85.04を達成。
- 局所化ガイダンスは性能を大きく向上させ、局所化を除去した場合の精度で4.4%のゲインを示すアブレーション結果。
- CAM生成局所化ボックス、IoUベースの親和性、ROIベースのローカル特徴は、ベースラインおよび従来手法を上回る改善をもたらす。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。