Skip to main content
QUICK REVIEW

[논문 리뷰] Unsupervised Cross-dataset Person Re-identification by Transfer Learning of Spatial-Temporal Patterns

Jianming Lv, Weihang Chen|arXiv (Cornell University)|2018. 03. 20.
Video Surveillance and Tracking Methods참고 문헌 17인용 수 29
한 줄 요약

이 논문은 TFusion을 제안하며, 소규모 레이블이 부여된 소스 데이터셋에서 학습된 시각 분류기를 레이블이 없는 타겟 데이터셋으로 전이하여 보행자의 시공간 패턴을 학습하는 비지도 교차 데이터셋 인식 방법이다. 이는 베이지안 모델을 통해 시각적 특징과 이러한 패턴을 융합하고, 랭킹 기반 상호 촉진 절차를 통해 반복적으로 성능을 향상시켜, 실제 데이터셋인 GRID와 Market1501에서 최신의 지도 학습 방법과 유사한 최고 성능을 달성한다.

ABSTRACT

Most of the proposed person re-identification algorithms conduct supervised training and testing on single labeled datasets with small size, so directly deploying these trained models to a large-scale real-world camera network may lead to poor performance due to underfitting. It is challenging to incrementally optimize the models by using the abundant unlabeled data collected from the target domain. To address this challenge, we propose an unsupervised incremental learning algorithm, TFusion, which is aided by the transfer learning of the pedestrians' spatio-temporal patterns in the target domain. Specifically, the algorithm firstly transfers the visual classifier trained from small labeled source dataset to the unlabeled target dataset so as to learn the pedestrians' spatial-temporal patterns. Secondly, a Bayesian fusion model is proposed to combine the learned spatio-temporal patterns with visual features to achieve a significantly improved classifier. Finally, we propose a learning-to-rank based mutual promotion procedure to incrementally optimize the classifiers based on the unlabeled data in the target domain. Comprehensive experiments based on multiple real surveillance datasets are conducted, and the results show that our algorithm gains significant improvement compared with the state-of-art cross-dataset unsupervised person re-identification algorithms.

연구 동기 및 목표

  • 레이블링이 비현실적인 대규모 실세계 카메라 네트워크에 지도 학습 기반의 인식 모델을 구현하는 데 도전하는 것.
  • 수동 레이블링 없이 풍부한 레이블이 없는 감시 데이터를 활용하여 레이블이 없는 타겟 데이터셋에서의 성능을 향상시키는 것.
  • 레이블이 없는 데이터에서 학습한 시공간 운동 패턴을 통합하여 지도 학습과 비지도 학습 간의 성능 격차를 해소하는 것.
  • 레이블이 없는 데이터를 사용하여 시각 분류기와 융합 분류기를 상호 보완적으로 점진적으로 최적화하는 상호 학습 프레임워크를 개발하는 것.

제안 방법

  • 소규모 레이블이 부여된 소스 데이터셋에서 학습된 시각 분류기를 레이블이 없는 타겟 데이터셋으로 전이하여 비지도 방식으로 보행자의 시공간 패턴을 학습하는 것.
  • 학습된 시공간 패턴과 시각적 특징을 융합하여 더 강력한 인식 분류기를 구성하기 위해 베이지안 융합 모델을 구축하는 것.
  • 랭킹 기반 상호 촉진 절차를 구현하여 융합 모델이 레이블이 없는 데이터에서의 랭킹 결과를 활용해 시각 분류기의 개선을 이끄는 것.
  • 시각 분류기와 융합 분류기를 피드백 루프 내에서 반복적으로 업데이트하여 일반화 능력과 성능을 시간이 지남에 따라 향상시키는 것.
  • 베이지안 모델에서 조정 가능한 융합 파라미터 α와 β를 사용하며, α+β<1 조건을 만족시켜 시각적 특징과 시공간 기여도를 균형 있게 조절하는 것.
  • 모델을 비지도 교차 데이터셋 전이 및 지도 미세조정 모드에서 모두 적용하여 안정성과 성능을 평가하는 것.

실험 결과

연구 질문

  • RQ1레이블이 없는 감시 데이터에서 학습된 시공간 패턴이 교차 데이터셋 설정에서 보행자 인식 성능을 크게 향상시킬 수 있는가?
  • RQ2비지도 시공간 패턴과 시각적 특징을 융합하는 데 있어 베이지안 융합 모델의 효과는 어떠한가?
  • RQ3레이블이 없는 조건에서 시각 분류기와 융합 분류기 간의 랭킹 기반 상호 촉진 메커니즘이 성능 향상을 점진적으로 달성할 수 있는가?
  • RQ4비지도 전이 방법이 최신의 지도 학습 기반 인식 모델의 성능을 어느 정도 따라잡거나 초월할 수 있는가?

주요 결과

  • TFusion는 VIPeR, GRID, CUHK01, Market1501를 포함한 모든 테스트 데이터셋에서 최신의 비지도 교차 데이터셋 전이 방법 [21]을 크게 앞서며 성능을 냅니다.
  • GRID 데이터셋에서 Market1501에서 전이할 경우 TFusion는 순위 1 정확도 63.2%를 기록하여 동일한 데이터셋에서 최신의 지도 학습 모델을 초월합니다.
  • 비지도 TFusion 모델는 그 지도 학습 변형(TFusion-sup)과 매우 유사한 성능을 달성하여 타겟 도메인에서 레이블이 없는 데이터를 효과적으로 활용하고 있음을 시사합니다.
  • α=0.25이고 β=0일 때 융합 모델이 최적의 성능을 보이며, 적절한 가중치 조정을 통해 시공간 패턴이 중요한 기여를 한다는 것을 시사합니다.
  • 랭킹 기반 최적화의 세 번째 반복 이후 성능 수렴이 이루어지며, 이는 실세계 구현에 있어 세 번의 반복으로 충분함을 나타냅니다.
  • 이 방법은 다양한 데이터셋에 대해 잘 일반화되며, 특히 지하철 환경에서의 독특한 인간 운동 패턴 덕분에 GRID에서 특히 높은 성능 향상을 보입니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.