QUICK REVIEW

[논문 리뷰] Spatiotemporal Transformer for Video-based Person Re-identification

Tianyu Zhang, Longhui Wei|arXiv (Cornell University)|2021. 03. 30.

Video Surveillance and Tracking Methods참고 문헌 42인용 수 30

한 줄 요약

이 논문은 비디오 기반 사람 재식별을 위한 시공간 트랜스포머(STT)를 도입하고, 제약된 어텐션과 Global Transformer를 통한 과적합 완화 및 합성 데이터 사전훈련을 통해 MARS, DukeMTMC-VideoReID, LS-VID에서 최첨단 성능을 달성합니다.

ABSTRACT

Recently, the Transformer module has been transplanted from natural language processing to computer vision. This paper applies the Transformer to video-based person re-identification, where the key issue is to extract the discriminative information from a tracklet. We show that, despite the strong learning ability, the vanilla Transformer suffers from an increased risk of over-fitting, arguably due to a large number of attention parameters and insufficient training data. To solve this problem, we propose a novel pipeline where the model is pre-trained on a set of synthesized video data and then transferred to the downstream domains with the perception-constrained Spatiotemporal Transformer (STT) module and Global Transformer (GT) module. The derived algorithm achieves significant accuracy gain on three popular video-based person re-identification benchmarks, MARS, DukeMTMC-VideoReID, and LS-VID, especially when the training and testing data are from different domains. More importantly, our research sheds light on the application of the Transformer on highly-structured visual data.

연구 동기 및 목표

비디오 기반 사람 재식별(ReID)에 대해 트랜스포머 아키텍처를 채택하는 타당성을 제시한다.
제한된 비디오 ReID 데이터에서 제약 및 글로벌 어텐션을 통해 트랜스포머의 과적합을 완화한다.
초기화 및 일반화 성능을 향상시키기 위한 합성 데이터 사전훈련 파이프라인을 제안한다.
표준 비디오 기반 ReID 벤치마크에서 실증적 이득을 보여주고 어텐션 동작을 분석한다.

제안 방법

이미지 패치에서 작동하는 Spatial Transformer(ST)와 프레임별 토큰을 트랙렛 표현으로 집계하는 Temporal Transformer(TT)의 2단계 STT를 제안한다.
제약된 어텐션 학습을 적용한다: 제한된 영역에 과집중하는 것을 방지하기 위한 부분 기반 및 전체 이미지 교차 엔트로피 손실을 포함한 공간 제약; 프레임 수준 트리플렛 감독과 시간적 어텐션 엔트로피 손실을 결합한 시간 제약.
트랙렛 내 모든 프레임 패치를 처리하여 프레임 간 패치 관계를 모델링하는 Global Transformer(GT) 브랜치를 도입한다.
합성 비디오 데이터(UnrealPerson)를 사용한 사전훈련으로 데이터 부족 문제를 완화하고 실제 데이터셋에서 파인튜닝하기 전에 초기화를 개선한다.
CNN 백본(ResNet-50의 처음 세 블록)으로 학습하고, 특징 맵을 토큰으로 패치화하며, 공간과 시간 정보를 융합하기 위한 추가 공간 토큰과 시간 토큰을 사용한다.

실험 결과

연구 질문

RQ1트랜스포머 기반 아키텍처를 비디오 기반 사람 ReID 작업에 효과적으로 적용할 수 있는가?
RQ2제약을 통해 제한된 비디오 ReID 데이터에서 과적합을 방지할 수 있는 방법은 무엇인가?
RQ3전역 어텐션 브랜치가 프레임 간 패치를 연결함으로써 STT를 보완하는가?
RQ4합성 비디오 사전훈습이 일반화 및 실제 ReID 벤치마크에서의 성능 향상으로 이어지는가?

주요 결과

제약된 STT와 Global Transformer가 CNN 베이스라인 및 Vanilla 트랜스포머 대비 MARS, Duke, LS-VID에서 특히 도메인 간 평가 하에서 현저히 우수한 성능을 보인다.
제약된 공간 어텐션은 과적합을 줄이고 도메인 간 전이 성능을 향상시킨다(예를 들어 MARS에서 학습할 때 Duke의 rank-1이 50.6%에서 60.5%로 향상).
Global 어텐션 학습은 프레임 간 패치 관계를 가능하게 하여 상당한 이득을 제공한다(예: Duke에서 GT 도입 시 rank-1이 약 3.9% 증가).
합성 비디오 사전훈습은 세 데이터셋 모두에서 직접 전이 성능을 크게 개선해 초기화 및 수렴이 향상됨을 시사한다.
절차별 실험에서 가장 강력한 구성은 공간+시간 제약, Global 어텐션, 합성 사전훈습을 조합한 것으로, 보고된 최상의 결과를 달성한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.