QUICK REVIEW

[論文レビュー] Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification

Jianlou Si, Honggang Zhang|arXiv (Cornell University)|Mar 27, 2018

Video Surveillance and Tracking Methods参考文献 32被引用数 76

ひとこと要約

DuATMは、画像および動画の人物再識別のために文脈依存の特徴系列を洗練・整列させる二重注意機構を導入し、従来の注意機構やシーケンスベース手法を上回る。シアミーズ/トリプレット学習設定と補助損失を用い、Market-1501、DukeMTMC-reID、MARSで最先端の結果を達成する。

ABSTRACT

Typical person re-identification (ReID) methods usually describe each pedestrian with a single feature vector and match them in a task-specific metric space. However, the methods based on a single feature vector are not sufficient enough to overcome visual ambiguity, which frequently occurs in real scenario. In this paper, we propose a novel end-to-end trainable framework, called Dual ATtention Matching network (DuATM), to learn context-aware feature sequences and perform attentive sequence comparison simultaneously. The core component of our DuATM framework is a dual attention mechanism, in which both intra-sequence and inter-sequence attention strategies are used for feature refinement and feature-pair alignment, respectively. Thus, detailed visual cues contained in the intermediate feature sequences can be automatically exploited and properly compared. We train the proposed DuATM network as a siamese network via a triplet loss assisted with a de-correlation loss and a cross-entropy loss. We conduct extensive experiments on both image and video based ReID benchmark datasets. Experimental results demonstrate the significant advantages of our approach compared to the state-of-the-art methods.

研究の動機と目的

外観の変動や遮蔽下での単一特徴ベクトルReID表現の限界を動機づける。
文脈認識特徴系列を学習し、注意を払ったシーケンスマッチングを実行するエンドツーエンドのフレームワークを提案する。
シーケンス内の特徴を洗練させ、シーケンス間のペアを整列させる二重注意機構を導入する。
画像および動画のReIDベンチマークで評価し、最先端手法に対する性能向上を示す。

提案手法

DenseNet-121バックボーンを用いて画像から特徴系列を抽出する（画像）、動画ではDenseNet-121と双方向の時系列モデリングを組み合わせて特徴系列を抽出する。
各ペア内の特徴について、シーケンス内の洗練とシーケンス間の整列を行う二重注意ブロックを適用する。
洗練・整列した特徴間のペアワイズ距離を計算し、全体的なシーケンス距離に統合する。
トリプレット損失を用いたシアミーズ設定でネットワークを訓練し、コンパクト性と識別性を高めるためにデコリレーションとクロスエントロピー補助損失を追加する。
データ拡張とハードトリプレットマイニングを用いて学習データの不均衡に対処する。
SGDで最適化し、DenseNetをファインチューニングし、CMCとmAP指標で評価する。

実験結果

リサーチクエスチョン

RQ1特徴系列の不整列や破損に対する頑健性を、二重のシーケンス内洗練とシーケンス間整列で向上させることができるか？
RQ2補助損失（デコリレーションとクロスエントロピー）は文脈認識シーケンス表現に現実的な改善をもたらすか？
RQ3DuATMは画像ベースおよび動画ベースのReIDベンチマークで、最先端手法と比較してどのような性能を示すか？
RQ4シーケンス長、特徴次元、学習パラメータが性能に与える影響はどのようなものか？

主な発見

方法	R1	mAP
Market-1501: DuATM (reported)	91.42	76.62
DukeMTMC-reID: DuATM (reported)	81.82	64.58
MARS: DuATM (reported)	78.74	62.26

シーケンス内注意とシーケンス間注意の両方を用いたDuATMは、AvePool+ベースラインをMarket-1501、DukeMTMC-reID、およびMARS全体で上回る。
デコリレーション損失とクロスエントロピー損失を追加するとさらなる向上をもたらし、アイデンティティ監督のためクロスエントロピーが実質的な改善を提供する。
アブレーションにより、二重注意（シーケンス内注意とシーケンス間注意の両方）を用いる方が、単一の注意タイプを用いるより勝る。
DuATMはMarket-1501（R1 91.42、mAP 76.62）、DukeMTMC-reID（R1 81.82、mAP 64.58）、およびMARS（R1 78.74、mAP 62.26）で最高性能を達成。
動画のシーケンス長Tを長くするとMARSでmAPが著しく改善（例：T=1で21.87%からT=96で59.42%へ）.
視覚化は、シーケンス内注意が文脈上の体の部位に焦点を当て、シーケンス間注意がシーケンス間で意味的に一貫した部位を整列させることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。