QUICK REVIEW

[論文レビュー] Cross-Modality Paired-Images Generation for RGB-Infrared Person Re-Identification

Guan-An Wang, Tianzhu Zhang. Yang Yang|arXiv (Cornell University)|Feb 10, 2020

Video Surveillance and Tracking Methods参考文献 24被引用数 37

ひとこと要約

この論文はJSIA-ReIDを提示する。RGB-IR人物再識別において、特徴の分離と特徴の交換を通じてクロスモダリティ対ペア画像を生成し、セットレベルとインスタンスレベルの整列を同時に達成し、RGB-IRマッチングを改善する。

ABSTRACT

RGB-Infrared (IR) person re-identification is very challenging due to the large cross-modality variations between RGB and IR images. The key solution is to learn aligned features to the bridge RGB and IR modalities. However, due to the lack of correspondence labels between every pair of RGB and IR images, most methods try to alleviate the variations with set-level alignment by reducing the distance between the entire RGB and IR sets. However, this set-level alignment may lead to misalignment of some instances, which limits the performance for RGB-IR Re-ID. Different from existing methods, in this paper, we propose to generate cross-modality paired-images and perform both global set-level and fine-grained instance-level alignments. Our proposed method enjoys several merits. First, our method can perform set-level alignment by disentangling modality-specific and modality-invariant features. Compared with conventional methods, ours can explicitly remove the modality-specific features and the modality variation can be better reduced. Second, given cross-modality unpaired-images of a person, our method can generate cross-modality paired images from exchanged images. With them, we can directly perform instance-level alignment by minimizing distances of every pair of images. Extensive experimental results on two standard benchmarks demonstrate that the proposed model favourably against state-of-the-art methods. Especially, on SYSU-MM01 dataset, our model can achieve a gain of 9.2% and 7.7% in terms of Rank-1 and mAP. Code is available at https://github.com/wangguanan/JSIA-ReID.

研究の動機と目的

RGB-IR再識別の動機付けとして、RGBとIR画像間の大きなクロスモダリティギャップに対処する。
インスタンスレベルの整列を可能にするためのクロスモダリティ対ペア画像生成法を提案する。
セットレベルのギャップを低減するために、モダリティ不変の内容とモダリティ特有のスタイル特徴を分離する。
モダリティ整合性と識別性を持つ特徴のエンドツーエンド学習を可能にする。
SYSU-MM01とRegDBベンチマークで最先端性能を示す。

提案手法

分離した特徴を交換してクロスモダリティ対ペア画像を生成するため、3つのエンコーダ（モダリティ不変 E^i、RGB特化 E^s_rgb、IR特化 E^s_ir）と2つのデコーダを備える生成モジュール G を提案する。
セットレベルの整列には共有のモダリティ不変エンコーダを用い、インスタンスレベルのエンコーダでペアのクロスモダリティ画像間の距離を最小化する特徴整合モジュール F を訓練する。
再構成損失、サイクル整合性損失、GAN損失を適用して現実的なクロスモダリティ対ペア画像生成を保証する。
アイデンティティ分類器とトリプレット損失を用いて、学習空間 T のクロスモダリティペア画像特徴間のKL発散を最小化することでインスタンスレベルの整列を行う。
サイクル整合性、GAN、整列、Re-ID損失に重みを付けてLという結合目的関数に統合し、モダリティ整合性と識別性を持つ特徴を学習する。
テスト時にはセットレベルエンコーダとインスタンスレベルエンコーダを介して特徴を抽出し、コサイン類似度を計算してマッチングを行う。

実験結果

リサーチクエスチョン

RQ1モダリティ不変の内容をモダリティ特有のスタイルから分離することで、RGBとIR画像間のセットレベルのクロスモダリティギャップを低減できるか？
RQ2生成されたクロスモダリティ対ペア画像はRGB-IR再識別におけるインスタンスレベルの整列を効果的に可能にするか？
RQ3セットレベルとインスタンスレベルの結合整列は、グローバル分布整列のみ、または画像間翻訳のみを用いる方法より優れているか？
RQ4提案されたエンコーダとデコーダスキームは、Re-ID学習に適した現実的なクロスモダリティ画像を生成するか？
RQ5分離と整列要素がSYSU-MM01およびRegDBの性能に与える影響はどの程度か？

主な発見

提案されたJSIA-ReIDはSYSU-MM01で最先端手法と比較して顕著な改善を達成（Rank-1およびmAPの改善）し、RegDBでもRank-1およびmAPの改善を示す。
アブレーション分析は、セットレベルとインスタンスレベルの整列の両方が性能に寄与し、SL+ILの結合で最良の結果を生むことを示した。
特徴の分離はセットレベルの整列を助け、非分離ベースラインよりモダリティギャップをより効果的に低減する。
生成されたクロスモダリティ対ペア画像は、画像ペア間の距離を直接最小化することで、精度の高いインスタンスレベルの整列を可能にする。
本手法は、異なる評価設定（シングルショット、マルチショット、全探索/室内探索）で堅牢な性能を示す。
視覚的分析は、提案された生成がCycleGAN/StarGANベースラインと比較してより忠実なクロスモダリティ対ペア画像を生成することを示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。