QUICK REVIEW

[논문 리뷰] Shape-Erased Feature Learning for Visible-Infrared Person Re-Identification

Jiawei Feng, Ancong Wu|arXiv (Cornell University)|2023. 04. 09.

Video Surveillance and Tracking Methods인용 수 7

한 줄 요약

이 논문은 형태 제거 기능 학습 프레임워크(SGIEL)를 도입하여 VI-ReID 표현을 모양 관련 부분과 모양 제거된 부분으로 직교 부분공간을 통해 분해하고, 바디 모양을 넘어 다양한 모달리티 공유 신호를 발견하도록 하며, 교차 모달 재식별 성능을 개선합니다.

ABSTRACT

Due to the modality gap between visible and infrared images with high visual ambiguity, learning extbf{diverse} modality-shared semantic concepts for visible-infrared person re-identification (VI-ReID) remains a challenging problem. Body shape is one of the significant modality-shared cues for VI-ReID. To dig more diverse modality-shared cues, we expect that erasing body-shape-related semantic concepts in the learned features can force the ReID model to extract more and other modality-shared features for identification. To this end, we propose shape-erased feature learning paradigm that decorrelates modality-shared features in two orthogonal subspaces. Jointly learning shape-related feature in one subspace and shape-erased features in the orthogonal complement achieves a conditional mutual information maximization between shape-erased feature and identity discarding body shape information, thus enhancing the diversity of the learned representation explicitly. Extensive experiments on SYSU-MM01, RegDB, and HITSZ-VCM datasets demonstrate the effectiveness of our method.

연구 동기 및 목표

VI-ReID에서 바디 모양을 넘어 시각적/적외선 데이터 간에 모달리티-공유 신호를 다양하게 학습할 동기를 제시한다.
직교 부분공간 분해를 이용해 모양 관련 특징과 모양 제거 특징을 서로 상관이 없도록 분해하는 모양 제거 특징 학습 패러다임을 제안한다.
SGIEL 프레임워크를 개발해 모양 관련 및 모양 제거 목적을 함께 최적화하고 모달리티 공유 표현을 개선한다.
사전 학습 파싱으로부터의 바디 모양 priors를 활용해 모양 관련 특징을 안내하는 한편 다른 판별 신호의 발견을 촉진한다.

제안 방법

각 모달리티 특징 z(i)을 반직교 프로젝터 P를 통해 모양 관련 z_sr(i)와 모양 제거 z_se(i)로 분해한다. z_sr(i)=P^T z(i)이고 z_se(i)=(I−PP^T) z(i)이다.
L_ortho 정규화 항을 도입해 P^T P가 L1 스ense에서 항등행렬에 근접하도록 유도한다(식(3)).
조건부 상호정보량 I(Z_se^(i); Y | X^(s))를 I(Z_se^(i); Y) (식(4))를 최대화하고 I(Z_se^(i); Y; X^(s))를 최소화하여 근사적으로 추정한다; 근사값은 교차 엔트로피 손실 및 MSE 가이던스(식(5, 9, 11))를 통해 얻어진다.
Z_sr^(i)가 Z^(s) (바디 모양 표현)을 흉내 내도록 L_srmse와 L_srkl(식(12))를 최소화한다.
Z_se^(i)에서 모달리티 특이 정보를 제거하기 위해 교차 모달 정렬 손실 L_sekl과 모달리티 간 교차 엔트로피 손실 최소화를 수행한다(식(16)).
공동 목표 L_train은 L_int(아이덴티티, 트리플렛, 교차 모달 KL 손실), L_sr, L_se, L_ortho, L_sid로 구성되며 기울기 노름에 기반한 동적 재가중화 스킴 α_t^sr, α_t^se를 사용한다(식(19)–(20)).

실험 결과

연구 질문

RQ1VI-ReID 특징에서 바디 모양 정보를 제거하는 것이 바디 모양을 넘어 추가적 모달리티 공유 신호의 의도적 발견으로 이어질 수 있는가?
RQ2모양 관련 및 모양 제거 부분공간으로의 직교 분해가 교차 모달 구분력을 향상시키고 모달리티별 편향을 감소시키는가?
RQ3형상 관련 및 형상 제거 목적을 함께 최적화하는 것이 표준 벤치마크에서 VI-ReID 성능에 어떤 영향을 미치는가?
RQ4바디 모양 priors 와 의미론적 파싱이 모양 관련 특징을 지도하는 데 순수 데이터 기반 표현과 비교해 어떤 차이를 보이는가?

주요 결과

SGIEL은 SYSU-MM01, RegDB, HITSZ-VCM 데이터 셋에서 경쟁력 있는 VI-ReID 결과를 달성하며, 파라미터 예산이 비슷한 여러 베이스라인 대비 우수한 성능을 보인다.
아블레이션 연구에서 바디 모양을 제거하는(shape-erased 학습)이 형태를 제거하지 않는 베이스라인 대비 Rank-1 및 mAP에서 측정 가능한 개선을 보인다.
두 서브스페이스에 대한 직교 제약이 유익하며, 직교성을 제거하면 성능이 크게 저하한다. 적절한 직교 설계(크기가 512인 단일 프로젝터 P)가 애블레이션에서 최상의 결과를 제공한다(표 4–5).
시각화 결과 모양 관련 목표는 신체 윤곽에 집중하는 반면, 모양 제거 목표는 보완적인 영역에 주목하여 다양한 신호를 학습한다는 아이디어를 지지한다(Grad-CAM++ 시각화).
SYSU-MM01(단일 촬영)에서 Our의 1x 파라미터 설정은 All Search에서 Rank-1 75.18, mAP 70.12, Indoor Search에서 81.20 mAP를 달성하며, Concatenation(C)을 사용할 경우 All Search에서 Rank-1 77.12, mAP 72.33, Indoor Search에서 82.95 mAP를 달성한다.
메서드는 RegDB 및 HITSZ-VCM으로 확장되어 베이스라인 및 다수의 선행 방법 대비 경쟁력 있는 성능 향상을 보인다(표 1–3).

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.