Skip to main content
QUICK REVIEW

[논문 리뷰] Hi-CMD: Hierarchical Cross-Modality Disentanglement for Visible-Infrared Person Re-Identification

Seokeon Choi, Sumin Lee|arXiv (Cornell University)|2019. 12. 03.
Video Surveillance and Tracking Methods참고 문헌 40인용 수 25
한 줄 요약

이 논문은 시각-적외선 인물 재식별을 위한 계층적 교차모달 분리 프레임워크인 Hi-CMD를 제안한다. 이는 신원-구분 가능한 요소(예: 체형, 옷차림)와 신원-제외된 요소(예: 자세, 조명)를 분리하기 위해 신원 유지 인물 이미지 생성 네트워크와 계층적 특징 학습 모듈을 사용한다. 이 방법은 자세 지도 없이도 분리된, 자세와 조명에 영향을 받지 않는 특징을 통해 교차모달 매칭을 강력하게 구현함으로써 두 개의 벤치마크 데이터셋에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Visible-infrared person re-identification (VI-ReID) is an important task in night-time surveillance applications, since visible cameras are difficult to capture valid appearance information under poor illumination conditions. Compared to traditional person re-identification that handles only the intra-modality discrepancy, VI-ReID suffers from additional cross-modality discrepancy caused by different types of imaging systems. To reduce both intra- and cross-modality discrepancies, we propose a Hierarchical Cross-Modality Disentanglement (Hi-CMD) method, which automatically disentangles ID-discriminative factors and ID-excluded factors from visible-thermal images. We only use ID-discriminative factors for robust cross-modality matching without ID-excluded factors such as pose or illumination. To implement our approach, we introduce an ID-preserving person image generation network and a hierarchical feature learning module. Our generation network learns the disentangled representation by generating a new cross-modality image with different poses and illuminations while preserving a person's identity. At the same time, the feature learning module enables our model to explicitly extract the common ID-discriminative characteristic between visible-infrared images. Extensive experimental results demonstrate that our method outperforms the state-of-the-art methods on two VI-ReID datasets. The source code is available at: https://github.com/bismex/HiCMD.

연구 동기 및 목표

  • 어두운 조명 조건에서 정확한 매칭을 방해하는 시각-적외선 인물 재식별(VI-ReID)에서 내재된 모달 간 차이와 교차 모달 간 차이의 공존 문제를 해결하기 위해.
  • 자세 애너테이션에 의존하지 않고도 교차모달 이미지에서 신원-구분 가능한 특징(예: 옷차림, 체형)과 신원-제외된 요소(예: 자세, 조명)를 분리하기 위해.
  • 자기 지도적, 엔드 투 엔드로 학습 가능한 프레임워크를 개발하여 조작된 자세와 조명 속성으로 신원 유지 이미지를 생성함으로써 특징의 강건성을 향상시키기 위해.
  • 특징 공간에서 교차모달 갭을 줄이고 내부 클래스 거리를 최소화하면서 외부 클래스 거리를 최대화하여 매칭 정확도를 향상시키기 위해.

제안 방법

  • 신원 유지 인물 이미지 생성(ID-PIG) 네트워크는 교차모달 이미지 쌍의 잠재 벡터를 교체하여 신원-제외된 요소를 분리함으로써 신원을 유지하면서 자세와 조명을 전이할 수 있다.
  • 계층적 특징 학습(HFL) 모듈은 스타일 코드와 프로토타입 코드의 교대 샘플링을 통해 가시 및 적외선 이미지 간의 공통된 신원-구분 가능한 특징을 명시적으로 추출한다.
  • 신원 유지와 분리 효과를 장려하기 위해 교차 엔트로피 손실, 트리플릿 손실, 그리고 적대적 손실의 조합을 사용하여 엔드 투 엔드로 모델을 학습시킨다.
  • ID-PIG 네트워크는 조건부 생성 적대적 신경망(cGAN) 아키텍처를 활용하여 제어된 속성 변화를 가진 현실적인 이미지를 합성한다.
  • HFL 모듈에서 프로토타입 코드는 신원 불변 특징을, 스타일 코드는 신원 제외 특징을 각각 표현하여 계층적 분리를 가능하게 한다.
  • 이 프레임워크는 인간의 자세 추정 또는 관절점 감독을 필요로 하지 않으며, 대신 이미지 수준 제약 조건을 통한 자기 지도적 분리에 의존한다.

실험 결과

연구 질문

  • RQ1자세 지도나 쌍으로 연결된 관절점 애너테이션 없이도 시각-적외선 이미지에서 신원-구분 가능한 요소와 신원-제외된 요소를 효과적으로 분리할 수 있는가?
  • RQ2신원 불변 및 신원 제외 특징의 계층적 분리는 VI-ReID에서 교차모달 매칭 성능을 어떻게 향상시키는가?
  • RQ3신원 유지 이미지 생성 네트워크는 신원을 유지하면서 자세와 조명 속성을 얼마나 효과적으로 조작할 수 있는가?
  • RQ4HFL 모듈의 교대 샘플링 전략은 기존 전략 대비 특징 공간에서 내부 클래스 거리와 외부 클래스 거리를 어떻게 크게 감소시키는가?
  • RQ5분리된 표현은 교차모달 및 내부 모달 변형 상황에서 인물 재식별에 효과적으로 활용될 수 있는가?

주요 결과

  • RegDB 데이터셋에서 Hi-CMD는 랭크-1 정확도 70.93%와 mAP 66.04%를 달성하여 이전 최신 기술 수준의 방법들을 능가한다.
  • SYSU-MM01 데이터셋에서 Hi-CMD는 랭크-1 정확도 34.94%와 mAP 35.94%를 기록하여 다양한 데이터셋에 대한 강력한 일반화 능력을 보여준다.
  • HFL 모듈에서 스타일 코드와 프로토타입 코드의 교대 샘플링은 단독으로 각 코드를 학습하는 것보다 내부 클래스 거리를 크게 감소시키고 외부 클래스 거리를 증가시킨다.
  • ID-PIG 네트워크의 시각화 결과는 자세와 조명을 독립적으로 조작하면서도 신원을 유지함을 확인하여 효과적인 분리를 입증한다.
  • 잠재 공간에서의 신원 제외 요소에 대한 선형 보간은 자세와 조명의 부드러운 전이를 만들어내어 연속적이고 분리된 속성 표현임을 나타낸다.
  • 제거 실험 결과, ID-PIG와 HFL 모듈의 조합이 가장 높은 성능을 낼 수 있음을 확인하여 이들이 분리 및 매칭에 보완적인 역할을 한다는 것을 확인한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.