QUICK REVIEW

[論文レビュー] Deep View-Sensitive Pedestrian Attribute Inference in an end-to-end Model

M. Saquib Sarfraz, Arne Schumann|arXiv (Cornell University)|Jul 19, 2017

Video Surveillance and Tracking Methods参考文献 16被引用数 53

ひとこと要約

本稿では、歩行者の視線（前、後、側）を同時に予測し、視線別に特化した多値属性推論を実行するエンドツーエンドのディープラーニングモデル、VeSPAを提案する。粗いポーズを監視信号として活用することで、視線に適応した表現を学習し、属性推定の精度を向上させる。PETA、RAP、WIDERの3つのデータセットにおいて、RAPでの視線分類精度が91.7%に達し、最先端の性能を達成した。

ABSTRACT

Pedestrian attribute inference is a demanding problem in visual surveillance that can facilitate person retrieval, search and indexing. To exploit semantic relations between attributes, recent research treats it as a multi-label image classification task. The visual cues hinting at attributes can be strongly localized and inference of person attributes such as hair, backpack, shorts, etc., are highly dependent on the acquired view of the pedestrian. In this paper we assert this dependence in an end-to-end learning framework and show that a view-sensitive attribute inference is able to learn better attribute predictions. Our proposed model jointly predicts the coarse pose (view) of the pedestrian and learns specialized view-specific multi-label attribute predictions. We show in an extensive evaluation on three challenging datasets (PETA, RAP and WIDER) that our proposed end-to-end view-aware attribute prediction model provides competitive performance and improves on the published state-of-the-art on these datasets.

研究の動機と目的

監視における歩行者属性推定の課題に取り組む。ここでは、属性が視線に強く依存するためである。
明示的な局所化やパーツ検出器に依存せずに、視線別に特化した視覚的特徴を明示的にモデル化することで、多値属性推定を向上させる。
視線予測と属性認識を1つのエンドツーエンドのディープラーニングフレームワークで統合する。
粗いポーズ情報が、より良い属性推定のための強力で転送可能な監視信号であることを示す。

提案手法

モデルは、視線予測（前/後/側）に特化した初期層を備えた共有バックボーンCNNを使用する。
後続の層には、3つの粗い視線のそれぞれに対応する視線別属性予測ヘッドが含まれる。
視線分類と多値属性分類の両方を組み合わせたマルチタスク損失を用いて、エンドツーエンドで訓練する。
励起バックプロパゲーションを用いて、各属性予測に関連する画像領域を可視化・分析する。
視線予測器は、視線ラベルを備えたRAPで初期化され、視線ラベルのないPETAおよびWIDERで微調整される。これにより、新しいデータセットへの転送が可能になる。
アーキテクチャにより、視線と属性予測の共同最適化が可能となり、視線情報が関連する画像領域への注目を導く。

実験結果

リサーチクエスチョン

RQ1歩行者の粗い視線（前/後/側）は、属性推定の向上に向けた強力で転送可能な監視信号として機能するか？
RQ2視線別に特化した属性表現を学習することは、視線に依存しないモデルに比べ、全体的な属性推定性能を向上させるか？
RQ3分離型またはパーツベースのアプローチよりも、エンドツーエンドのモデルが視線予測と属性認識をより効果的に同時に学習できるか？
RQ4同じ属性について、異なる視線におけるモデルの注目マップと特徴活性化はどのように変化するか？

主な発見

提案されたVeSPAモデルは、RAPテストセットで91.7%の視線分類精度を達成し、信頼性の高い視線予測を示した。
本モデルは、PETA、RAP、WIDERの3つのベンチマークデータセットにおいて、すべてで最先端の性能を向上させた。
視線別属性予測ヘッドは、その対応する視線に一致する画像でテストした際、最高の精度を達成しており、成功した特化が確認された。
励起バックプロパゲーションの結果、VeSPAは視線依存の注目を学習していることが判明した。例えば、「マフラー」の予測では、後ろ向きの視線では首元が最も関連性が高く、側面の視線では体幹部が重要である。
定性的な結果から、VeSPAは意味的に妥当な予測を下しており、多くの誤検出例は妥当な誤り（例：「レザー靴」ではなく「靴」を予測）であることが明らかになった。
視線予測器を、視線ラベルのないPETAおよびWIDERに転送したが、高品質な平均画像がRAPのそれと類似しており、強力な一般化性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。