QUICK REVIEW

[論文レビュー] CM-NAS: Rethinking Cross-Modality Neural Architectures for Visible-Infrared Person Re-Identification.

Chaoyou Fu, Yibo Hu|arXiv (Cornell University)|Jan 21, 2021

Video Surveillance and Tracking Methods被引用数 3

ひとこと要約

本稿では、可視赤外線人間再識別のための新しいニューラルアーキテクチャ探索フレームワークであるCM-NASを提案する。この手法は、モダリティ差を低減するためにバッチ正規化の分割を最適化する。BNに特化した探索空間と、相関一貫性に基づくMMD損失（C3MMD）を導入することで、SOTAの性能を達成し、SYSU-MM01ではRank-1/mAPがそれぞれ6.70%/6.13%向上、RegDBでは12.17%/11.23%向上を達成した。

ABSTRACT

Visible-Infrared person re-identification (VI-ReID) aims at matching cross-modality pedestrian images, breaking through the limitation of single-modality person ReID in dark environment. In order to mitigate the impact of large modality discrepancy, existing works manually design various two-stream architectures to separately learn modality-specific and modality-sharable representations. Such a manual design routine, however, highly depends on massive experiments and empirical practice, which is time consuming and labor intensive. In this paper, we systematically study the manually designed architectures, and identify that appropriately splitting Batch Normalization (BN) layers to learn modality-specific representations will bring a great boost towards cross-modality matching. Based on this observation, the essential objective is to find the optimal splitting scheme for each BN layer. To this end, we propose a novel method, named Cross-Modality Neural Architecture Search (CM-NAS). It consists of a BN-oriented search space in which the standard optimization can be fulfilled subject to the cross-modality task. Besides, in order to better guide the search process, we further formulate a new Correlation Consistency based Class-specific Maximum Mean Discrepancy (C3MMD) loss. Apart from the modality discrepancy, it also concerns the similarity correlations, which have been overlooked before, in the two modalities. Resorting to these advantages, our method outperforms state-of-the-art counterparts in extensive experiments, improving the Rank-1/mAP by 6.70%/6.13% on SYSU-MM01 and 12.17%/11.23% on RegDB. The source code will be released soon.

研究の動機と目的

可視赤外線人間再識別のための2ストリームアーキテクチャにおける手動設計の高コストな時間と人的リソースを低減すること。
モダリティ固有の表現学習を向上させる最適なバッチ正規化層の分割方式を特定すること。
アーキテクチャ探索と相関に配慮した特徴アライメントを共同で最適化することで、モダリティ差を低減すること。
クロスモダリティReIDタスクに特化した探索空間と損失関数を開発すること。
広範な手動チューニングに依存せずに、ベンチマークデータセットでSOTAの性能を達成すること。

提案手法

各バッチ正規化層をモダリティ固有のコンponentに分割することで、異なる表現を学習可能なBNに特化した探索空間を提案する。
クラス固有の最大平均差分（MMD）損失の相関一貫性に基づくC3MMD損失を導入し、特徴をアライメントしながらクラス間相関構造を保持する。
勾配ベース最適化を用いた微分可能アーキテクチャ探索により、探索空間を効率的に探索する。
ドメイン差異と類似性相関の一貫性を捉えるC3MMD損失を最小化することで、探索プロセスをガイドする。
モダリティ固有の正規化を備えた2ストリームバックボーンを用いることで、特徴表現を向上させつつ、モダリティ固有の不変性を維持する。
提案された探索空間内で標準的な最適化手法を活用し、クロスモダリティマッチングに最適なアーキテクチャ構成を同定する。

実験結果

リサーチクエスチョン

RQ1バッチ正規化層の分割は、可視赤外線ReIDにおけるクロスモダリティ表現学習をどのように改善するか？
RQ2アイデンティティ相関を保持しつつ、モダリティ差を低減するためのBN層分割の最適戦略は何か？
RQ32つのモダリティ間の特徴の類似性相関を明示的にモデル化することで、アライメントをどのように改善できるか？
RQ4BN分割に特化した微分可能探索空間は、手動で設計された2ストリームアーキテクチャを上回る性能を発揮できるか？
RQ5相関に配慮した損失関数を組み込むことで、ベンチマーク全体におけるReID性能にどのような影響を与えるか？

主な発見

CM-NASは、SOTA手法と比較してSYSU-MM01データセットでRank-1を6.70%、mAPを6.13%向上させた。
RegDBデータセットでは、Rank-1が12.17%、mAPが11.23%向上し、優れた一般化性能を示した。
提案されたC3MMD損失は、ドメイン差を効果的に低減するとともに、クロスモダリティ特徴におけるクラス固有の相関構造を保持した。
BNに特化した探索空間により、手動による試行錯誤を伴わずに、効率的かつ効果的なアーキテクチャ発見が可能になった。
アブレーションスタディの結果、最適なBN分割が表現学習およびマッチング性能を顕著に向上させることを確認した。
ソースコードは公開され、再現性および今後の研究を支援する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。