Skip to main content
QUICK REVIEW

[論文レビュー] Dual Attention Matching Network for Context-Aware Feature Sequence based Person Re-Identification

Jianlou Si, Honggang Zhang|arXiv (Cornell University)|Mar 27, 2018
Video Surveillance and Tracking Methods参考文献 32被引用数 76
ひとこと要約

DuATMは、画像および動画の人物再識別のために文脈依存の特徴系列を洗練・整列させる二重注意機構を導入し、従来の注意機構やシーケンスベース手法を上回る。シアミーズ/トリプレット学習設定と補助損失を用い、Market-1501、DukeMTMC-reID、MARSで最先端の結果を達成する。

ABSTRACT

Typical person re-identification (ReID) methods usually describe each pedestrian with a single feature vector and match them in a task-specific metric space. However, the methods based on a single feature vector are not sufficient enough to overcome visual ambiguity, which frequently occurs in real scenario. In this paper, we propose a novel end-to-end trainable framework, called Dual ATtention Matching network (DuATM), to learn context-aware feature sequences and perform attentive sequence comparison simultaneously. The core component of our DuATM framework is a dual attention mechanism, in which both intra-sequence and inter-sequence attention strategies are used for feature refinement and feature-pair alignment, respectively. Thus, detailed visual cues contained in the intermediate feature sequences can be automatically exploited and properly compared. We train the proposed DuATM network as a siamese network via a triplet loss assisted with a de-correlation loss and a cross-entropy loss. We conduct extensive experiments on both image and video based ReID benchmark datasets. Experimental results demonstrate the significant advantages of our approach compared to the state-of-the-art methods.

研究の動機と目的

  • 外観の変動や遮蔽下での単一特徴ベクトルReID表現の限界を動機づける。
  • 文脈認識特徴系列を学習し、注意を払ったシーケンスマッチングを実行するエンドツーエンドのフレームワークを提案する。
  • シーケンス内の特徴を洗練させ、シーケンス間のペアを整列させる二重注意機構を導入する。
  • 画像および動画のReIDベンチマークで評価し、最先端手法に対する性能向上を示す。

提案手法

  • DenseNet-121バックボーンを用いて画像から特徴系列を抽出する(画像)、動画ではDenseNet-121と双方向の時系列モデリングを組み合わせて特徴系列を抽出する。
  • 各ペア内の特徴について、シーケンス内の洗練とシーケンス間の整列を行う二重注意ブロックを適用する。
  • 洗練・整列した特徴間のペアワイズ距離を計算し、全体的なシーケンス距離に統合する。
  • トリプレット損失を用いたシアミーズ設定でネットワークを訓練し、コンパクト性と識別性を高めるためにデコリレーションとクロスエントロピー補助損失を追加する。
  • データ拡張とハードトリプレットマイニングを用いて学習データの不均衡に対処する。
  • SGDで最適化し、DenseNetをファインチューニングし、CMCとmAP指標で評価する。

実験結果

リサーチクエスチョン

  • RQ1特徴系列の不整列や破損に対する頑健性を、二重のシーケンス内洗練とシーケンス間整列で向上させることができるか?
  • RQ2補助損失(デコリレーションとクロスエントロピー)は文脈認識シーケンス表現に現実的な改善をもたらすか?
  • RQ3DuATMは画像ベースおよび動画ベースのReIDベンチマークで、最先端手法と比較してどのような性能を示すか?
  • RQ4シーケンス長、特徴次元、学習パラメータが性能に与える影響はどのようなものか?

主な発見

方法R1mAP
Market-1501: DuATM (reported)91.4276.62
DukeMTMC-reID: DuATM (reported)81.8264.58
MARS: DuATM (reported)78.7462.26
  • シーケンス内注意とシーケンス間注意の両方を用いたDuATMは、AvePool+ベースラインをMarket-1501、DukeMTMC-reID、およびMARS全体で上回る。
  • デコリレーション損失とクロスエントロピー損失を追加するとさらなる向上をもたらし、アイデンティティ監督のためクロスエントロピーが実質的な改善を提供する。
  • アブレーションにより、二重注意(シーケンス内注意とシーケンス間注意の両方)を用いる方が、単一の注意タイプを用いるより勝る。
  • DuATMはMarket-1501(R1 91.42、mAP 76.62)、DukeMTMC-reID(R1 81.82、mAP 64.58)、およびMARS(R1 78.74、mAP 62.26)で最高性能を達成。
  • 動画のシーケンス長Tを長くするとMARSでmAPが著しく改善(例:T=1で21.87%からT=96で59.42%へ).
  • 視覚化は、シーケンス内注意が文脈上の体の部位に焦点を当て、シーケンス間注意がシーケンス間で意味的に一貫した部位を整列させることを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。