[논문 리뷰] Transformer Meets Tracker: Exploiting Temporal Context for Robust Visual Tracking
이 논문은 시암-유사(tracker) 구조에 통합된 별도 인코더-디코더 가지를 가진 트랜스포머 기반 프레임워크를 도입하여 시간적 맥락을 전파하고, 시암-유사 파이프라인과 Discriminative Correlation Filter(DCF)/DiMP 파이프라인 모두의 강점을 향상시키며 다수 벤치마크에서 최신 성능을 달성한다.
In video object tracking, there exist rich temporal contexts among successive frames, which have been largely overlooked in existing trackers. In this work, we bridge the individual video frames and explore the temporal contexts across them via a transformer architecture for robust object tracking. Different from classic usage of the transformer in natural language processing tasks, we separate its encoder and decoder into two parallel branches and carefully design them within the Siamese-like tracking pipelines. The transformer encoder promotes the target templates via attention-based feature reinforcement, which benefits the high-quality tracking model generation. The transformer decoder propagates the tracking cues from previous templates to the current frame, which facilitates the object searching process. Our transformer-assisted tracking framework is neat and trained in an end-to-end manner. With the proposed transformer, a simple Siamese matching approach is able to outperform the current top-performing trackers. By combining our transformer with the recent discriminative tracking pipeline, our method sets several new state-of-the-art records on prevalent tracking benchmarks.
연구 동기 및 목표
- 비디오 프레임 간의 시간적 맥락을 식별하고 활용하여 시각 추적의 강인성을 향상시키는 것.
- Siamese-like 파이프라인 내에서 인코더와 디코더 가지를 분리하여 추적에 적합한 트랜스포머를 설계하는 것.
- 시간적 특징 보강과 단서 전파를 가능하게 하여 가림, 외관 변화 및 방해 요소를 처리하는 것.
제안 방법
- Siamese-like 추적 프레임워크 내에서 인코더와 디코더를 두 개의 평행 가지로 분리한다.
- Encoder: 여러 템플릿에 대해 self-attention을 수행하여 인코딩된 고품질 템플릿 특징을 생성한다.
- Decoder: 인코딩된 템플릿과 현재 검색 패치 간에 cross-attention을 수행하여 시간적 단서와 마스크를 전파한다.
- Mask transformation: 템플릿 마스크를 전파하여 검색 패치의 공간적 주의를 강화한다.
- Feature transformation: 템플릿에서 검색 패치로 타깃 표현을 마스킹과 함께 전파하여 타깃 영역에 집중한다.
- Siamese 또는 DiMP 기반 추적 모델로 end-to-end 학습; 템플릿 앙상블은 5 프레임마다 최대 20개의 템플릿으로 업데이트한다.
실험 결과
연구 질문
- RQ1비디오 프레임 간의 시간적 맥락을 효과적으로 모델링하여 견고한 추적을 향상시킬 수 있는 방법은 무엇인가?
- RQ2트랜스포머 아키텍처를 Siamese-like 추적 프레임워크에 적용하여 템플릿 특징을 강화하고 시간적 신호를 전달할 수 있는가?
- RQ3인코더-전용, 디코더-전용, 결합 인코더-디코더 구성은 추적 성능에 어떤 영향을 미치는가?
- RQ4전체 트랜스포머를 통합한 추적기가 стандарт 벤치마크에서 Siamese 및 DiMP/DCF 파이프라인과 함께 어떻게 성능을 발휘하는가?
주요 결과
| Variation | Siamese (AO) | DiMP (AO) |
|---|---|---|
| Baseline Performance | 62.0 | 66.7 |
| Only Encoder (w/o Any Decoder) | 63.8 | 67.3 |
| Encoder + Decoder (Only Feature Transf.) | 66.3 | 68.1 |
| Encoder + Decoder (Only Mask Transf.) | 67.1 | 67.8 |
| Encoder + Decoder (Feature & Mask Transf.) | 67.3 | 68.8 |
- 인코더-전용 구성은 베이스라인에 비해 미미한 이득을 제공한다.
- 특징 기반 디코더 변환은 Siamese와 DiMP 베이스라인 모두에 명확한 부스트를 제공한다.
- 마스크 기반 디코더 변환도 일관된 개선을 가져온다.
- 특징 및 마스크 변환의 결합은 가장 큰 이득을 주며, 두 베이스라인 모두에서 학습 손실을 크게 감소시키고 GOT-10k의 AO를 증가시킨다.
- 전체 트랜스포머를 사용할 때 TrSiam과 TrDiMP는 주목할 만한 성능 향상을 달성하고 두 베이스라인 간의 격차를 좁힌다.
- Transformer-enhanced 추적기는 TrackingNet, GOT-10k, LaSOT, VOT2018, NfS, UAV123, OTB-2015 데이터셋에서 경쟁력 있거나 최첨단 성능을 달성한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.