Skip to main content
QUICK REVIEW

[논문 리뷰] Joint Visual and Temporal Consistency for Unsupervised Domain Adaptive Person Re-Identification

Jianing Li, Shiliang Zhang|arXiv (Cornell University)|2020. 07. 21.
Video Surveillance and Tracking Methods참고 문헌 39인용 수 24
한 줄 요약

이 논문은 비지도 학습 도메인 적응(person re-identification)을 위한 통합 시각적 및 시간적 일관성 프레임워크를 제안한다. 지역적 배치 기반 one-hot 레이블링을 위한 자기적응형 분류(SAC)와 시각적 유사도와 시간적 일관성을 융합하여 글로벌 가짜 레이블링을 수행하는 메모리 기반 시간 유도 클러스터링(MTC) 방법을 활용한다. 이 방법은 상태 기반 성능을 달성하여, 비지도 학습 도메인 적응 환경에서 100 에포크만으로 Market-1501에서 86.8%의 랭크-1 정확도를 기록한다.

ABSTRACT

Unsupervised domain adaptive person Re-IDentification (ReID) is challenging because of the large domain gap between source and target domains, as well as the lackage of labeled data on the target domain. This paper tackles this challenge through jointly enforcing visual and temporal consistency in the combination of a local one-hot classification and a global multi-class classification. The local one-hot classification assigns images in a training batch with different person IDs, then adopts a Self-Adaptive Classification (SAC) model to classify them. The global multi-class classification is achieved by predicting labels on the entire unlabeled training set with the Memory-based Temporal-guided Cluster (MTC). MTC predicts multi-class labels by considering both visual similarity and temporal consistency to ensure the quality of label prediction. The two classification models are combined in a unified framework, which effectively leverages the unlabeled data for discriminative feature learning. Experimental results on three large-scale ReID datasets demonstrate the superiority of proposed method in both unsupervised and unsupervised domain adaptive ReID tasks. For example, under unsupervised setting, our method outperforms recent unsupervised domain adaptive methods, which leverage more labels for training.

연구 동기 및 목표

  • 비지도 학습 도메인 적응(person Re-ID)에서 큰 도메인 갭과 레이블이 없는 데이터의 문제를 해결한다.
  • 클러스터링 과정에서 시각적 유사도와 시간적 일관성을 융합하여 가짜 레이블의 품질을 향상시킨다.
  • 레이블이 없는 타겟 도메인에서 시각적 변동성과 어려운 음성 샘플로 인한 신뢰할 수 없는 클러스터링을 줄인다.
  • 최소한의 감독 신호를 사용하여 통합된 프레임워크를 통해 효율적이고 강력한 특징 학습을 가능하게 한다.
  • 기존 방법들과 비교해 더 적은 학습 에포크 수로 최고 성능을 달성한다.

제안 방법

  • 각 학습 배치 내에서 이미지 간의 국소적 상위 클래스 간 분리성을 강제하기 위해 고유의 one-hot 레이블을 할당하는 자기적응형 분류(SAC) 모델을 도입한다.
  • 시각적 유사도와 시간적 일관성을 모두 사용하여 글로벌 다중 클래스 가짜 레이블을 예측하는 메모리 기반 시간 유도 클러스터링(MTC) 방법을 개발한다.
  • 카메라 간 프레임 번호 간격을 사용하여 시간적 일관성을 추정함으로써, 시각적으로 유사하지만 시간적으로 일관성이 없는 샘플을 자연스럽게 필터링할 수 있다.
  • 증강된 특징를 저장하고 업데이트하는 메모리 백업을 활용하여 가짜 레이블 예측의 강건성과 안정성을 향상시킨다.
  • SAC와 MTC를 통합된 프레임워크에 융합하여 내부 클래스의 응집성과 외부 클래스의 분리성을 동시에 최적화한다.
  • 특징 학습의 강건성을 향상시키기 위해 시각적 유사도와 시간적 유사도를 부드럽고 미분 가능한 융합 메커니즘을 통해 융합한다.

실험 결과

연구 질문

  • RQ1시각적 일관성과 시간적 일관성을 동시에 강제하면 비지도 학습 도메인 적응에서 가짜 레이블의 품질이 향상되는가?
  • RQ2프레임 번호 간격을 기반으로 한 시간적 일관성을 시각적 유사도만 사용하는 것과 비교해 클러스터링의 강건성을 어떻게 향상시키는가?
  • RQ3미니배치에서 자기적응형 분류 전략이 감독 없이 국소적 특징의 분류 능력을 얼마나 향상시킬 수 있는가?
  • RQ4제안된 방법은 기존의 비지도 학습 및 도메인 적응 ReID 방법들보다 정확도와 학습 효율성 측면에서 뛰어나다고 할 수 있는가?
  • RQ5학습 시간 최적화를 넘어서 추론 과정에서 시간적 일관성을 활용하면 성능 향상이 추가로 이루어지는가?

주요 결과

  • 제안된 JVTC 방법은 비지도 학습 도메인 적응 환경에서 Market-1501에서 86.8%의 랭크-1 정확도를 달성하여 이전의 최고 성능 방법들을 능가한다.
  • MSMT17에서 DukeMTMC-reID를 소스 도메인으로 사용할 경우, JVTC는 52.9%의 랭크-1 정확도를 기록하며, SSG++를 11.3%포인트 초월한다.
  • 추론 시 통합 유사도를 적용한 JVTC+(JVTC+)는 MSMT17에서 mAP 75.2%, 랭크-1 81.2%의 성능을 기록하여 반지도 학습 SSG++를 초월한다.
  • 이 방법은 단지 100 에포크 만으로 수렴하며, SSG가 요구하는 2100 에포크보다 훨씬 빠르게 학습을 완료하면서도 더 높은 성능을 달성한다.
  • 시간적 일관성은 시각적으로 유사하지만 시간적으로 일관성이 없는 샘플을 필터링함으로써 클러스터링을 개선하고, 가짜 레이블링에서의 잘못된 양성 예측를 줄인다.
  • 메모리 백업을 갖춘 MTC 모듈은 특징의 강건성을 향상시켜 더 신뢰할 수 있는 글로벌 클러스터링과 더 나은 일반화 능력을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.