QUICK REVIEW

[논문 리뷰] Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification

Seokeon Choi, Sumin Lee|arXiv (Cornell University)|2019. 12. 03.

Video Surveillance and Tracking Methods참고 문헌 40인용 수 25

한 줄 요약

이 논문은 시각-적외선 인물 재식별을 위한 계층적 교차모달 분리 프레임워크인 Hi-CMD를 제안한다. 이는 신원-구분 가능한 요소(예: 체형, 옷차림)와 신원-제외된 요소(예: 자세, 조명)를 분리하기 위해 신원 유지 인물 이미지 생성 네트워크와 계층적 특징 학습 모듈을 사용한다. 이 방법은 자세 지도 없이도 분리된, 자세와 조명에 영향을 받지 않는 특징을 통해 교차모달 매칭을 강력하게 구현함으로써 두 개의 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Visible-infrared person re-identification (VI-ReID) is an important task in night-time surveillance applications, since visible cameras are difficult to capture valid appearance information under poor illumination conditions. Compared to traditional person re-identification that handles only the intra-modality discrepancy, VI-ReID suffers from additional cross-modality discrepancy caused by different types of imaging systems. To reduce both intra- and cross-modality discrepancies, we propose a Hierarchical Cross-Modality Disentanglement (Hi-CMD) method, which automatically disentangles ID-discriminative factors and ID-excluded factors from visible-thermal images. We only use ID-discriminative factors for robust cross-modality matching without ID-excluded factors such as pose or illumination. To implement our approach, we introduce an ID-preserving person image generation network and a hierarchical feature learning module. Our generation network learns the disentangled representation by generating a new cross-modality image with different poses and illuminations while preserving a person's identity. At the same time, the feature learning module enables our model to explicitly extract the common ID-discriminative characteristic between visible-infrared images. Extensive experimental results demonstrate that our method outperforms the state-of-the-art methods on two VI-ReID datasets. The source code is available at: https://github.com/bismex/HiCMD.

연구 동기 및 목표

어두운 조명 조건에서 정확한 매칭을 방해하는 시각-적외선 인물 재식별(VI-ReID)에서 내재된 모달 간 차이와 교차 모달 간 차이의 공존 문제를 해결하기 위해.
자세 애너테이션에 의존하지 않고도 교차모달 이미지에서 신원-구분 가능한 특징(예: 옷차림, 체형)과 신원-제외된 요소(예: 자세, 조명)를 분리하기 위해.
자기 지도적, 엔드 투 엔드로 학습 가능한 프레임워크를 개발하여 조작된 자세와 조명 속성으로 신원 유지 이미지를 생성함으로써 특징의 강건성을 향상시키기 위해.
특징 공간에서 교차모달 갭을 줄이고 내부 클래스 거리를 최소화하면서 외부 클래스 거리를 최대화하여 매칭 정확도를 향상시키기 위해.

제안 방법

신원 유지 인물 이미지 생성(ID-PIG) 네트워크는 교차모달 이미지 쌍의 잠재 벡터를 교체하여 신원-제외된 요소를 분리함으로써 신원을 유지하면서 자세와 조명을 전이할 수 있다.
계층적 특징 학습(HFL) 모듈은 스타일 코드와 프로토타입 코드의 교대 샘플링을 통해 가시 및 적외선 이미지 간의 공통된 신원-구분 가능한 특징을 명시적으로 추출한다.
신원 유지와 분리 효과를 장려하기 위해 교차 엔트로피 손실, 트리플릿 손실, 그리고 적대적 손실의 조합을 사용하여 엔드 투 엔드로 모델을 학습시킨다.
ID-PIG 네트워크는 조건부 생성 적대적 신경망(cGAN) 아키텍처를 활용하여 제어된 속성 변화를 가진 현실적인 이미지를 합성한다.
HFL 모듈에서 프로토타입 코드는 신원 불변 특징을, 스타일 코드는 신원 제외 특징을 각각 표현하여 계층적 분리를 가능하게 한다.
이 프레임워크는 인간의 자세 추정 또는 관절점 감독을 필요로 하지 않으며, 대신 이미지 수준 제약 조건을 통한 자기 지도적 분리에 의존한다.

실험 결과

연구 질문

RQ1자세 지도나 쌍으로 연결된 관절점 애너테이션 없이도 시각-적외선 이미지에서 신원-구분 가능한 요소와 신원-제외된 요소를 효과적으로 분리할 수 있는가?
RQ2신원 불변 및 신원 제외 특징의 계층적 분리는 VI-ReID에서 교차모달 매칭 성능을 어떻게 향상시키는가?
RQ3신원 유지 이미지 생성 네트워크는 신원을 유지하면서 자세와 조명 속성을 얼마나 효과적으로 조작할 수 있는가?
RQ4HFL 모듈의 교대 샘플링 전략은 기존 전략 대비 특징 공간에서 내부 클래스 거리와 외부 클래스 거리를 어떻게 크게 감소시키는가?
RQ5분리된 표현은 교차모달 및 내부 모달 변형 상황에서 인물 재식별에 효과적으로 활용될 수 있는가?

주요 결과

RegDB 데이터셋에서 Hi-CMD는 랭크-1 정확도 70.93%와 mAP 66.04%를 달성하여 이전 최신 기술 수준의 방법들을 능가한다.
SYSU-MM01 데이터셋에서 Hi-CMD는 랭크-1 정확도 34.94%와 mAP 35.94%를 기록하여 다양한 데이터셋에 대한 강력한 일반화 능력을 보여준다.
HFL 모듈에서 스타일 코드와 프로토타입 코드의 교대 샘플링은 단독으로 각 코드를 학습하는 것보다 내부 클래스 거리를 크게 감소시키고 외부 클래스 거리를 증가시킨다.
ID-PIG 네트워크의 시각화 결과는 자세와 조명을 독립적으로 조작하면서도 신원을 유지함을 확인하여 효과적인 분리를 입증한다.
잠재 공간에서의 신원 제외 요소에 대한 선형 보간은 자세와 조명의 부드러운 전이를 만들어내어 연속적이고 분리된 속성 표현임을 나타낸다.
제거 실험 결과, ID-PIG와 HFL 모듈의 조합이 가장 높은 성능을 낼 수 있음을 확인하여 이들이 분리 및 매칭에 보완적인 역할을 한다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.