Skip to main content
QUICK REVIEW

[論文レビュー] Deep-Person: Learning Discriminative Deep Features for Person Re-Identification

Xiang Bai, Mingkun Yang|arXiv (Cornell University)|Nov 29, 2017
Video Surveillance and Tracking Methods参考文献 59被引用数 63
ひとこと要約

Deep-Person は、LSTM に基づく部位シーケンスモデリングをグローバル特徴とトリプレットベースのランキングと組み合わせ、Re-IDのための高度に識別性の高い人物表現を学習するエンドツーエンドの三分岐フレームワークを導入します。

ABSTRACT

Recently, many methods of person re-identification (Re-ID) rely on part-based feature representation to learn a discriminative pedestrian descriptor. However, the spatial context between these parts is ignored for the independent extractor to each separate part. In this paper, we propose to apply Long Short-Term Memory (LSTM) in an end-to-end way to model the pedestrian, seen as a sequence of body parts from head to foot. Integrating the contextual information strengthens the discriminative ability of local representation. We also leverage the complementary information between local and global feature. Furthermore, we integrate both identification task and ranking task in one network, where a discriminative embedding and a similarity measurement are learned concurrently. This results in a novel three-branch framework named Deep-Person, which learns highly discriminative features for person Re-ID. Experimental results demonstrate that Deep-Person outperforms the state-of-the-art methods by a large margin on three challenging datasets including Market-1501, CUHK03, and DukeMTMC-reID. Specifically, combining with a re-ranking approach, we achieve a 90.84% mAP on Market-1501 under single query setting.

研究の動機と目的

  • 境界ボックスの不正確さ、遮蔽、背景の混雑に対して頑健な特徴学習を促進する。
  • 歩行者を身体部位のシーケンスとしてモデル化し、文脈的関係を捉える。
  • 全身を表すグローバル表現と局所の部位ベース特徴の双方を活用し、補完的な情報を得る。
  • 同一ネットワーク内で識別(Softmax)とランキング(トリプレット損失)目的を統合したエンドツーエンドネットワーク。

提案手法

  • 最終プーリング層を除いた ResNet-50 バックボーンから特徴を抽出する。
  • 幅方向にプーリングして部位シーケンスを形成し、2層の双方向LSTMで身体部位間の空間的文脈をモデル化する。
  • LSTM に基づく部位表現を、グローバル平均プーリングと Softmax 損失で学習されるグローバル表現と結合する。
  • PK サンプリングバッチを用いたトリプレット損失によるメトリック学習を行う第3の分岐を追加し、堅牢な類似度尺度を学習する。
  • 3つの損失を用いてエンドツーエンドで学習する:ランキング用のトリプレット損失と、部位ベースおよびグローバル特徴の2つの Softmax 識別損失。

実験結果

リサーチクエスチョン

  • RQ1LSTM を用いて歩行者をボディパーツのシーケンスとしてモデル化することで、局所的特徴の識別性を向上させつつ、全体の人物との整合性を保てるか。
  • RQ2グローバル表現と局所的な(LSTM ベース)表現を組み合わせることで、Re-ID に補完的な利点が得られるか。
  • RQ3識別とランキングの目的を単一のネットワークで統合することで、未知のアイデンティティに対する学習表現が向上するか。
  • RQ4Market-1501、CUHK03、DukeMTMC-reID における最先端手法と比較して Deep-Person はどのように性能を示すか?

主な発見

  • 提案された LSTM ベースの部位シーケンスは、非シーケンシャルな部位モデルを超える識別力を向上させる。
  • グローバル表現と部位ベースの表現は補完的な情報を提供し、性能を向上させる。
  • 三分岐の Deep-Person フレームワークは、Market-1501、CUHK03、および DukeMTMC-reID のデータセットにおいて、単一クエリおよび複数クエリ設定で最先端手法を上回る。
  • 識別とランキングの目的を組み込んだエンドツーエンド学習は、検索に適した頑健な歩行者表現を生み出す。
  • アブレーション研究により、LSTM ベースの部位を取り入れると mAP および rank-1 精度に実証的な向上が見られる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。