Skip to main content
QUICK REVIEW

[論文レビュー] Joint Discriminative and Generative Learning for Person Re-identification

Zhedong Zheng, Xiaodong Yang|arXiv (Cornell University)|Apr 15, 2019
Video Surveillance and Tracking Methods参考文献 55被引用数 86
ひとこと要約

DG-Net は識別的な再識別埋め込みと、 appearance と structure コードを入れ替えてクロスアイデンティティおよび同一アイデンティティの画像を生成する生成モデルを共同学習し、複数のベンチマークで最先端の結果を達成します。フレームワークはオンライン生成データを使用して appearance encoder と re-id 学習をエンドツーエンドループで継続的に改善します。

ABSTRACT

Person re-identification (re-id) remains challenging due to significant intra-class variations across different cameras. Recently, there has been a growing interest in using generative models to augment training data and enhance the invariance to input changes. The generative pipelines in existing methods, however, stay relatively separate from the discriminative re-id learning stages. Accordingly, re-id models are often trained in a straightforward manner on the generated data. In this paper, we seek to improve learned re-id embeddings by better leveraging the generated data. To this end, we propose a joint learning framework that couples re-id learning and data generation end-to-end. Our model involves a generative module that separately encodes each person into an appearance code and a structure code, and a discriminative module that shares the appearance encoder with the generative module. By switching the appearance or structure codes, the generative module is able to generate high-quality cross-id composed images, which are online fed back to the appearance encoder and used to improve the discriminative module. The proposed joint learning framework renders significant improvement over the baseline without using generated data, leading to the state-of-the-art performance on several benchmark datasets.

研究の動機と目的

  • 生成データを活用して人物再識別におけるクラス内ばらつきを低減する。
  • 識別学習と生成学習を1つのネットワークで結合し、エンドツーエンド最適化を実現する。
  • 解離した appearance と structure コードを学習して、制御可能な画像生成を可能にする。
  • 合成画像から appearance encoder へのオンラインフィードバックによって re-id 埋め込みを改善する。

提案手法

  • appearance encoder Ea、structure encoder Es、decoder G、discriminator D を備え、appearance と structure コードを入れ替えて画像を生成する生成モジュール。
  • 2つの生成戦略: self-identity generation(同一アイデンティティの別の画像から元の画像を再構成する)と cross-identity generation(1つの appearance コードと別の structure コードから画像を生成する)。
  • 潜在コードの監督には appearance と structure の再構成、ピクセル単位の L1 画像再構成損失、そして一貫性を担保する潜在コードの再構成が含まれる。
  • Cross-identity generation には appearance-code に基づくアイデンティティ監督と、合成データを実データ分布に合わせるような対向的損失が含まれる。
  • 識別モジュールは Ea をバックボーンとして共有し、主特徴学習と細粒度特徴抽出の二つのヘッドを備え、教師モデルから動的にラベル付けされた合成サンプルに導かれる。
  • 最適化は画像とコード再構成損失、アイデンティティ損失、対向損失、および二つの識別損失を組み合わせ、トレーニングを安定化させるように慎重にスケジュールされた重みで行う。

実験結果

リサーチクエスチョン

  • RQ1エンドツーエンドで識別学習と生成学習を結合することは、生成データをタスクにより関連性の高いものにすることで re-id の性能を向上させることができるか。
  • RQ2解離した appearance と structure コードは、再識別のトレーニングのための intra-identity および cross-identity の変動をカバーする制御可能な生成を可能にするか。
  • RQ3生成されたクロス-id 画像から appearance encoder へのオンラインフィードバックは一貫して re-id 埋め込みの品質を高めるか。
  • RQ4生成データを用いた場合、主特徴学習と細粒度特徴抽出の二つの視点が re-id の精度に与える影響はどうなるか。

主な発見

MethodsRank@1 (Market-1501)mAP (Market-1501)Rank@1 (DukeMTMC-reID)mAP (DukeMTMC-reID)MSMT17 Rank@1MSMT17 mAP
Ours94.886.086.674.877.252.3
  • 提案手法の DG-Net はベンチマークデータセットで最先端の re-id 性能を達成し、ベースラインや競合手法を上回る。
  • appearance または structure コードを入れ替えた生成画像は現実的で多様であり、オンラインフィードバックやアイデンティティ監督がない場合に品質が低下することをアブレーションで示した。
  • 生成データを用いた two-fold discriminative strategy(主特徴学習と細粒度特徴抽出)は、ベースラインの re-id モデルに比べて substantial gains を生み出す。
  • オンライン生成データを用いたエンドツーエンドの共同訓練は、オフライン生成サンプルだけでの訓練より大きな改善を提供する。
  • Market-1501、DukeMTMC-reID、MSMT17 における Rank@1 および mAP の定量的成果は顕著な改善を示し、DG-Net はポスト処理なしでトップスコアを達成。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。