[논문 리뷰] TransReID: Transformer-based Object Re-Identification
TransReID는 객체 ReID를 위한 순수한 트랜스포머 프레임워크를 제시하고, 퍼즐 조각 패치 모듈 (JPM)과 사이드 정보 임베딩 (SIE)을 도입하여 인물 및 차량 ReID 벤치마크에서 최첨단 성능을 달성한다.
Extracting robust feature representation is one of the key challenges in object re-identification (ReID). Although convolution neural network (CNN)-based methods have achieved great success, they only process one local neighborhood at a time and suffer from information loss on details caused by convolution and downsampling operators (e.g. pooling and strided convolution). To overcome these limitations, we propose a pure transformer-based object ReID framework named TransReID. Specifically, we first encode an image as a sequence of patches and build a transformer-based strong baseline with a few critical improvements, which achieves competitive results on several ReID benchmarks with CNN-based methods. To further enhance the robust feature learning in the context of transformers, two novel modules are carefully designed. (i) The jigsaw patch module (JPM) is proposed to rearrange the patch embeddings via shift and patch shuffle operations which generates robust features with improved discrimination ability and more diversified coverage. (ii) The side information embeddings (SIE) is introduced to mitigate feature bias towards camera/view variations by plugging in learnable embeddings to incorporate these non-visual clues. To the best of our knowledge, this is the first work to adopt a pure transformer for ReID research. Experimental results of TransReID are superior promising, which achieve state-of-the-art performance on both person and vehicle ReID benchmarks.
연구 동기 및 목표
- ReID에서 글로벌 컨텍스트 모델링의 한계와 세부 정보의 미세한 보존에 대한 동기를 극복하기 위함.
- CNN 기반 방법과 같거나 그 이상을 달성하는 순수 트랜스포머 기반 ReID 프레임워크를 개발한다.
- 가려짐, 정합 오류, 카메라/뷰포인트 차 variation에 대한 강건성을 높이는 메커니즘을 도입한다.
- 종단 간 학습 가능한 시스템 내에서 JPM과 SIE의 두 가지 신규 모듈의 효과를 입증한다.
제안 방법
- 이미지를 중첩된 패치의 시퀀스로 인코딩하고 Transformer로 처리하여 글로벌 컨텍스트를 포착한다.
- 전역 특징 분기와 JPM 기반 로컬 특징 분기가 공유된 트랜스포머 레이어를 사용하는 이중 분기 설정을 사용한다.
- Patch 임베딩을 시프트하고 섞어 다양한 로컬 피처를 생성하는 Jigsaw Patch Module (JPM)을 도입한다.
- 카메라 및 뷰포인트 정보를 학습 가능한 임베딩으로 인코딩하는 Side Information Embeddings (SIE)를 통합한다.
- 글로벌 및 로컬 특징 모두에서 ID 손실과 트립렛 손실로 학습하고 추론을 위해 이를 융합한다.
실험 결과
연구 질문
- RQ1순수 Transformer 백본이 CNN 기반 모델과 비교하여 인물 및 차량 ReID에서 경쟁력 있는 성능을 달성할 수 있는가?
- RQ2JPM과 SIE가 ReID에서 가려짐, 정렬 오류, 카메라/뷰포인트 간의 변 variation에 대한 강건성을 향상시키는가?
- RQ3중첩 패치 및 공동 글로벌-로컬 학습이 ReID 성능에 어떤 영향을 미치는가?
- RQ4표준 ReID 벤치마크에서 카메라/뷰포인트 사이드 정보 임베딩이 성능에 얼마나 기여하는가?
주요 결과
- 순수 Transformer 기반의 베이스라인이 이미 CNN 백본에 비해 경쟁력 있는 ReID 성능을 달성한다.
- JPM을 추가하면 MSMT17에서 +2.6% mAP, VeRi-776에서 Baseline 대비 +1.0% mAP 등 주목할 만한 이득이 있다.
- SIE를 도입하면 카메라/뷰포인트 간 편향을 줄이고 mAP를 추가로 향상시킨다(예: 카메라 및 뷰포인트 인코딩으로 MSMT17 이득).
- TransReID는 JPM 및 SIE를 통해 MSMT17에서 64.9 mAP 및 83.3 R1, VeRi-776에서 80.6 mAP 및 96.9 R1을 달성한다.
- 이전 최첨단 성능과 비교하면 TransReID 변형들이 MSMT17, Market-1501, DukeMTMC-reID, Occluded-Duke, VeRi-776 및 VehicleID를 포함한 다수의 벤치마크에서 최첨단 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.