[論文レビュー] Diverse Embedding Expansion Network and Low-Light Cross-Modality Benchmark for Visible-Infrared Person Re-identification
DEENを紹介。埋め込み空間拡張モジュールと多段階特徴統合を備えた多様な埋め込み拡張ネットワークによりVIS-IRモダリティのギャップを縮小し、LLCM低照度VIReIDデータセットを追加。SYSU-MM01、RegDB、およびLLCMで最先端のVIReID性能を実証。
For the visible-infrared person re-identification (VIReID) task, one of the major challenges is the modality gaps between visible (VIS) and infrared (IR) images. However, the training samples are usually limited, while the modality gaps are too large, which leads that the existing methods cannot effectively mine diverse cross-modality clues. To handle this limitation, we propose a novel augmentation network in the embedding space, called diverse embedding expansion network (DEEN). The proposed DEEN can effectively generate diverse embeddings to learn the informative feature representations and reduce the modality discrepancy between the VIS and IR images. Moreover, the VIReID model may be seriously affected by drastic illumination changes, while all the existing VIReID datasets are captured under sufficient illumination without significant light changes. Thus, we provide a low-light cross-modality (LLCM) dataset, which contains 46,767 bounding boxes of 1,064 identities captured by 9 RGB/IR cameras. Extensive experiments on the SYSU-MM01, RegDB and LLCM datasets show the superiority of the proposed DEEN over several other state-of-the-art methods. The code and dataset are released at: https://github.com/ZYK100/LLCM
研究の動機と目的
- 可視画像と赤外画像間の厳しいクロスモダリティギャップ下で、学習データが限られているVIReIDを動機づける。
- 多様な埋め込みを生成し、有意義なクロスモダリティ表現を学習する Diverse Embedding Expansion (DEE) を提案する。
- VIS生成埋め込みをIRの対になる埋め込みへ引き寄せるとともに、埋め込みの多様性を促進する Center-Guided Pair Mining (CPM)損失を導入する。
- バックボーンの段階を跨いだチャンネル志向および空間特徴をマイニングする Multistage Feature Aggregation (MFA)ブロックを開発する。
- 照明変化へ頑健性を評価する挑戦的な低照度クロスモダリティVIReIDデータセット(LLCM)を提供する。
提案手法
- DEENは二流ResNet-50バックボーンを使用したエンドツーエンドネットワークとして提案する。
- DEEは入力ごとに複数の埋め込みを生成する多分岐拡張畳み込みモジュールを実装する。
- CPM損失を用いて生成された埋め込みの多様性を促進し、VIS生成埋め込みをIR対応へ(およびその逆も)引き寄せる。
- DEEのブランチ間に直交性制約を課し、学習される表現の多様性を促進する。
- MFAブロックを組み込み、マルチステージ特徴を融合させ、チャンネル志向および空間表現をより豊かにする。
- クロスエントロピー、トリプレット、CPM、直交損失を統一目的の下で組み合わせた最適化を行う。

実験結果
リサーチクエスチョン
- RQ1DEEによる埋め込み空間拡張はVIReIDにおけるVIS-IRギャップを橋渡しする多様な手掛かりを生み出すか。
- RQ2CPM損失は生成埋め込みを多様かつモダリティ整合的に導くのか。
- RQ3MFAによる多段階統合はクロスモダリティ特徴判別力を向上させるか。
- RQ4DEENは既存のVIReID手法と比べて低照度クロスモダリティ条件でどの程度性能を発揮するか。
- RQ5LLCMデータセットは照明変化へのVIReIDの頑健性評価にどのような影響を与えるか。
主な発見
| SYSU-MM01 All-Search R-1 | SYSU-MM01 All-Search R-10 | SYSU-MM01 All-Search R-20 | SYSU-MM01 All-Search mAP | SYSU-MM01 Indoor-Search R-1 | SYSU-MM01 Indoor-Search R-10 | SYSU-MM01 Indoor-Search R-20 | SYSU-MM01 Indoor-Search mAP | RegDB VIS→IR R-1 | RegDB VIS→IR R-10 | RegDB VIS→IR R-20 | RegDB VIS→IR mAP | RegDB IR→VIS R-1 | RegDB IR→VIS R-10 | RegDB IR→VIS R-20 | RegDB IR→VIS mAP |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 74.7 | 97.6 | 99.2 | 71.8 | 80.3 | 99.0 | 99.8 | 83.3 | 91.1 | 97.8 | 98.9 | 85.1 | 89.5 | 96.8 | 98.4 | 83.4 |
- DEENはSYSU-MM01とRegDBで最先端の結果を達成し、特にSYSU-MM01のAll-SearchでR-1=74.7、mAP=71.8、RegDBでVIS→IR R-1=91.1、mAP=85.1、IR→VIS R-1=89.5、mAP=83.4を達成。
- RegDBではDEENはVIS→IR R-1=91.1およびIR→VIS R-1=89.5を達成し、それぞれのmAPは85.1および83.4。
- LLCMデータセットでは、IR→VIS R-1=54.9、mAP=62.9、VIS→IR R-1=62.9、mAP=74.7という代表的ベースラインを上回る。
- アブレーションではDEE単独は小さな利得だが、CPMとMFAと組み合わせるとモデルは大幅な改善を達成する(DEEN=LLCMでR-1=54.9、mAP=62.9、SYSU-MM01でR-1=74.7、mAP=71.8)。
- MFAブロックはNon-localベースラインをRank-1とmAPの双方で上回り、段階を跨ぐ特徴融合の有効性を確認。
- DEENは照明変化へ頑健性を示し、クラス内のコンパクト性を高めつつ、クラス間およびクロスモダリティのギャップを縮小する。

より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。