QUICK REVIEW

[論文レビュー] Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification

Seokeon Choi, Sumin Lee|arXiv (Cornell University)|Dec 3, 2019

Video Surveillance and Tracking Methods参考文献 40被引用数 25

ひとこと要約

本稿では、可視赤外人間再識別における階層的クロスモダリティ分離フレームワークであるHi-CMDを提案する。本手法は、ID判別要因（例：ボディシェイプ、衣類）とID非判別要因（例：ポーズ、照明）を分離し、IDを保持する人物画像生成ネットワークと階層的特徴学習モジュールを用いて実現する。ポーズの教師なしで、ポーズおよび照明に依存しない特徴を生成することで、教師なしのポーズ監視なしに、強力なクロスモダリティマッチングを実現し、2つのベンチマークデータセットで最先端の性能を達成した。

ABSTRACT

Visible-infrared person re-identification (VI-ReID) is an important task in night-time surveillance applications, since visible cameras are difficult to capture valid appearance information under poor illumination conditions. Compared to traditional person re-identification that handles only the intra-modality discrepancy, VI-ReID suffers from additional cross-modality discrepancy caused by different types of imaging systems. To reduce both intra- and cross-modality discrepancies, we propose a Hierarchical Cross-Modality Disentanglement (Hi-CMD) method, which automatically disentangles ID-discriminative factors and ID-excluded factors from visible-thermal images. We only use ID-discriminative factors for robust cross-modality matching without ID-excluded factors such as pose or illumination. To implement our approach, we introduce an ID-preserving person image generation network and a hierarchical feature learning module. Our generation network learns the disentangled representation by generating a new cross-modality image with different poses and illuminations while preserving a person's identity. At the same time, the feature learning module enables our model to explicitly extract the common ID-discriminative characteristic between visible-infrared images. Extensive experimental results demonstrate that our method outperforms the state-of-the-art methods on two VI-ReID datasets. The source code is available at: https://github.com/bismex/HiCMD.

研究の動機と目的

可視赤外人間再識別（VI-ReID）におけるモダリティ内およびモダリティ間の不一致の共存を解消し、劣悪な照明下でも正確なマッチングを可能にする。
ポーズアノテーションに依存せずに、可視赤外画像からID判別的特徴（例：衣類、ボディシェイプ）とID非判別的要因（例：ポーズ、照明）を分離する。
自己教師ありのエンドツーエンド学習可能なフレームワークを構築し、制御されたポーズおよび照明属性を有するID保持画像を生成することで、特徴のロバスト性を向上させる。
特徴空間におけるモダリティギャップを低減し、クラス内距離を最小化するとともにクラス間距離を最大化することで、マッチング精度を向上させる。

提案手法

ID保持人物画像生成（ID-PIG）ネットワークは、クロスモダリティ画像ペアの潜在ベクトルを置き換えることで、ID非判別的要因を分離し、ポーズおよび照明の転送を可能にしながらもIDを保持する。
階層的特徴学習（HFL）モジュールは、スタイルドメインとプロトタイプコードの交互サンプリングを用いて、可視および赤外画像間で共通するID判別的特徴を明示的に抽出する。
本モデルは、交差エントロピー損失、トリプルット損失、敵対的損失の組み合わせを用いてエンドツーエンドに訓練され、分離とID保持を促進する。
ID-PIGネットワークは、制御された属性変更を伴う現実的な画像を合成するため、条件付き生成敵対ネットワーク（cGAN）アーキテクチャを活用する。
HFLモジュールでは、プロトタイプコードがID不変特徴を、スタイルドメインコードがID非判別的特徴をそれぞれ表現し、階層的分離を可能にする。
本フレームワークは、人間のポーズ推定やキーポoint監視を必要とせず、画像レベルの制約に基づく自己教師あり分離に依存する。

実験結果

リサーチクエスチョン

RQ1ポーズ監視やペアドキーポイントアノテーションに依存せずに、可視赤外画像からID判別的要因とID非判別的要因を効果的に分離できるか？
RQ2ID不変およびID非判別的特徴の階層的分離は、VI-ReIDにおけるクロスモダリティマッチング性能をどのように向上させるか？
RQ3ID保持画像生成ネットワークは、IDを保持しながら、どの程度ポーズおよび照明属性を制御的に操作できるか？
RQ4HFLモジュールにおけるスタイルドメインとプロトタイプコードの交互サンプリング戦略は、ベースライン戦略と比較して、特徴空間におけるクラス内距離とクラス間距離を顕著に低減・増大させるか？
RQ5分離された表現は、モダリティ間およびモダリティ内変動下でも、人物再識別に効果的に利用できるか？

主な発見

RegDBデータセットでは、Hi-CMDはランク1精度70.93%およびmAP 66.04%を達成し、先行の最先端手法を上回った。
SYSU-MM01データセットでは、Hi-CMDはランク1精度34.94%およびmAP 35.94%を達成し、データセット間での強力な汎化性能を示した。
スタイルドメインとプロトタイプコードの交互サンプリングを用いたHFLモジュールは、単独でコードを学習する場合と比較して、顕著にクラス内距離を低減し、クラス間距離を増大させた。
ID-PIGネットワークの可視化結果から、ポーズと照明が独立して操作可能であり、IDが保持されていることが確認され、有効な分離が実現していることが裏付けられた。
潜在空間におけるID非判別的要因の線形補間は、ポーズおよび照明の滑らかな遷移を生み出し、連続的かつ分離された属性表現であることを示した。
アブレーションスタディの結果、ID-PIGとHFLモジュールの組み合わせが最高の性能を示し、両者の分離とマッチングにおける補完的役割を確認した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。