QUICK REVIEW

[論文レビュー] Deeply-Learned Part-Aligned Representations for Person Re-Identification

Li-Ming Zhao, Xi Li|arXiv (Cornell University)|Jul 23, 2017

Video Surveillance and Tracking Methods参考文献 32被引用数 166

ひとこと要約

本論文は、部位対応表現を用いて、部位ラベルなしでエンド・ツー・エンドに体の部位特異的特徴を学習することで、ポーズと空間的不整合性に対する頑健性を高め、標準データセットで最先端の結果を達成する再識別手法を提案します。

ABSTRACT

In this paper, we address the problem of person re-identification, which refers to associating the persons captured from different cameras. We propose a simple yet effective human part-aligned representation for handling the body part misalignment problem. Our approach decomposes the human body into regions (parts) which are discriminative for person matching, accordingly computes the representations over the regions, and aggregates the similarities computed between the corresponding regions of a pair of probe and gallery images as the overall matching score. Our formulation, inspired by attention models, is a deep neural network modeling the three steps together, which is learnt through minimizing the triplet loss function without requiring body part labeling information. Unlike most existing deep learning algorithms that learn a global or spatial partition-based local representation, our approach performs human body partition, and thus is more robust to pose changes and various human spatial distributions in the person bounding box. Our approach shows state-of-the-art results over standard datasets, Market-$1501$, CUHK$03$, CUHK$01$ and VIPeR.

研究の動機と目的

データから直接判別可能な身体部位を学習することにより、人物再識別における身体部位の不整合に対処する。
ラベル付き部位データなしで身体を領域に分割する部位対応表現を提案する。
部位検出と特徴抽出を triplet loss で訓練される単一の深層モデルに統合する。
標準ベンチマーク全体でポーズ変化と境界ボックスの不整合に対する頑健性を示す。

提案手法

特徴マップを抽出するために人物の境界ボックスから完全畳み込みネットワークを使用する。
特徴マップから判別可能な身体領域マップを検出するために複数の分岐を持つパートネットを導入する。
検出された各領域を重み付けしてプーリングし、部位ごとの特徴を計算して固定長ベクトルに縮約する。
部位特徴を連結して L2 正規化し、グローバルな部位対応表現を形成する。
ポジティブとネガティブ間の相対距離を強制するために triplet loss でネットワークをエンドツーエンドで訓練する。
プローブとギャラリー画像間のマッチングに単純なユークリッド距離を適用し、効率的な検索を可能にする。

実験結果

リサーチクエスチョン

RQ1明示的な身体部位ラベルなしで学習した部位対応表現は、再識別における従来の空間的分割よりも優れているのだろうか？
RQ2学習された身体部位は、姿勢や視点の変化下で同一人物の画像間で適切に揃うか？
RQ3提案手法は、固定の空間分割や外部の部位セグメンテーションを用いる従来手法とどう比較されるか？
RQ4部位数の増減が再識別性能に与える影響は？
RQ5この手法は複数の標準データセットと特徴バックボーンに対して有効か？

主な発見

Method	rank-1	rank-5	rank-10	mAP
Our Method	81.0	92.0	94.7	63.4

The part-aligned representation achieves competitive to state-of-the-art performance on Market-1501, CUHK03, CUHK01, and VIPeR."
部位数を8まで増やすと一般に rank-1 精度が向上し、それ以降は利得が安定する。
学習された身体部位を用いると、主要なベンチマークで空間ストライプやグリッド分割を上回る。
パートネットを固定の全結合層やプーリングのベースラインに置換すると性能が低下し、適応的な部位検出の利点を示している。
この手法は異なるバックボーンネットワーク（AlexNet、VGGNet、GoogLeNet）全般に利得を提供する。
最先端手法と比較して、提案手法は Market-1501 および CUHK03（ラベル付きおよび検出ボックスの両方を含む）など、いくつかの設定で最も良い報告結果を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。