QUICK REVIEW

[論文レビュー] RGB-Infrared Cross-Modality Person Re-Identification via Joint Pixel and Feature Alignment

Guan’an Wang, Tianzhu Zhang|arXiv (Cornell University)|Oct 13, 2019

Video Surveillance and Tracking Methods参考文献 32被引用数 59

ひとこと要約

AlignGANを提案する。RGB-IR再識別のためのピクセルと特徴の結合アラインメントGANで、RGBを偽IRに翻訳し、ジョイントディスクリミネータを用いてアイデンティティを保持しモダリティに依存しない特徴を学習する。SYSU-MM01とRegDBで最先端の結果を達成する。

ABSTRACT

RGB-Infrared (IR) person re-identification is an important and challenging task due to large cross-modality variations between RGB and IR images. Most conventional approaches aim to bridge the cross-modality gap with feature alignment by feature representation learning. Different from existing methods, in this paper, we propose a novel and end-to-end Alignment Generative Adversarial Network (AlignGAN) for the RGB-IR RE-ID task. The proposed model enjoys several merits. First, it can exploit pixel alignment and feature alignment jointly. To the best of our knowledge, this is the first work to model the two alignment strategies jointly for the RGB-IR RE-ID problem. Second, the proposed model consists of a pixel generator, a feature generator, and a joint discriminator. By playing a min-max game among the three components, our model is able to not only alleviate the cross-modality and intra-modality variations but also learn identity-consistent features. Extensive experimental results on two standard benchmarks demonstrate that the proposed model performs favorably against state-of-the-art methods. Especially, on SYSU-MM01 dataset, our model can achieve an absolute gain of 15.4% and 12.9% in terms of Rank-1 and mAP.

研究の動機と目的

RGB-IRのクロスモダリティギャップを、ピクセル表現と特徴表現を共同で整合させることにより橋渡しする。
RGB入力からアイデンティティを保持する偽IR画像を生成し、クロスモダリティのばらつきを低減する。
エンドツーエンドのフレームワークで、共同ディスクリミネータを用いてモダリティ間でアイデンティティ整合性のある特徴を学習する。

提案手法

RGBを偽IR画像へ翻訳するGANベースのジェネレータGpとサイクル一貫性制約を導入するピクセルアラインメントモジュール。
偽IR画像と実IR画像を共有空間に埋め込むCNNベースのジェネレータGfを用いた特徴アライメントモジュールを導入し、分類損失とトリプレット損失に加えて特徴空間でのGAN損失を用いる。
画像–特徴のペアを受け取るジョイントディスクリミネータDjを採用し、実際のペアのアイデンティティ整合性を維持し、ミスマッチを罰してGpとGfの両方を導く。
Djと結合されたPモジュールおよびFモジュール間のミンマックスゲームを通じて訓練し、クロスモダリティおよびモダリティ内のばらつきを低減し、アイデンティティを保持する特徴を学習する。

実験結果

リサーチクエスチョン

RQ1RGBからIRへのピクセルレベル翻訳は、RGB-IR再識別におけるクロスモダリティのばらつきを低減できるか？
RQ2共通ディスクリミネータを用いるピクセルと特徴の結合アラインメントは、特徴のみの手法と比較してアイデンティティの整合性と再識別精度を改善するか？
RQ3サイクル一貫性、アイデンティティ分類、トリプレット損失は、RGB-IRデータにおける頑健なクロスモダリティマッチングにどう寄与するか？

主な発見

AlignGANはSYSU-MM01で最先端手法を上回り、Rank-1とmAPで大きな利得を示す。
PIXELアラインメント（Gp）は、ベースラインに対してRank-1を大幅に向上させ、別個の特徴アラインメントよりも効果が大きい。
共同ディスクリミネータの指導により、学習された特徴のモダリティ間のアイデンティティ整合性が向上する。
RegDBでは、熱画像から可視画像への設定と可視画像から熱画像への設定の両方で、Rank-1とmAPの顕著な改善を達成する。
アブレーション研究は、ピクセルアラインメント、特徴アラインメント、および共同ディスクリミネータの有効性を確認している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。