QUICK REVIEW

[논문 리뷰] SwinTrack: A Simple and Strong Baseline for Transformer Tracking

Liting Lin, Heng Fan|arXiv (Cornell University)|2021. 12. 02.

Video Surveillance and Tracking Methods참고 문헌 37인용 수 48

한 줄 요약

SwinTrack은 Swin Transformer를 사용한 완전한 주의적 Siamese 추적기를 제안하며 경량 모션 토큰으로 시간적 맥락을 제공하고, 여러 추적 벤치마크에서 최첨단 결과를 달성하면서 실시간 속도를 유지합니다.

ABSTRACT

Recently Transformer has been largely explored in tracking and shown state-of-the-art (SOTA) performance. However, existing efforts mainly focus on fusing and enhancing features generated by convolutional neural networks (CNNs). The potential of Transformer in representation learning remains under-explored. In this paper, we aim to further unleash the power of Transformer by proposing a simple yet efficient fully-attentional tracker, dubbed SwinTrack, within classic Siamese framework. In particular, both representation learning and feature fusion in SwinTrack leverage the Transformer architecture, enabling better feature interactions for tracking than pure CNN or hybrid CNN-Transformer frameworks. Besides, to further enhance robustness, we present a novel motion token that embeds historical target trajectory to improve tracking by providing temporal context. Our motion token is lightweight with negligible computation but brings clear gains. In our thorough experiments, SwinTrack exceeds existing approaches on multiple benchmarks. Particularly, on the challenging LaSOT, SwinTrack sets a new record with 0.713 SUC score. It also achieves SOTA results on other benchmarks. We expect SwinTrack to serve as a solid baseline for Transformer tracking and facilitate future research. Our codes and results are released at https://github.com/LitingLin/SwinTrack.

연구 동기 및 목표

CNN 기반 또는 하이브리드 프레임워크를 넘어 Siamese 추적을 위한 완전한 Transformer 기반 표현 학습 및 융합의 사용을 고무한다.
경험적 타깃 궤적을 내재화하기 위한 경량 모션 토큰을 도입하여 시간적 강건성을 확보한다.
Swin Transformer를 기반으로 한 간단하고 효율적인 완전 주의적 추적 프레임워크를 개발한다.
효율적인 추론으로 다수의 대규모 벤치마크에서 강력한 성능을 보인다.

제안 방법

템플릿 및 검색 영역 특징을 추출하기 위해 Swin Transformer 백본을 사용한다(템플릿 토큰 T-tokens 및 검색 토큰 S-tokens).
템플릿 토큰과 검색 토큰을 함께 처리하는 연결 기반 융합 인코더를 구현하여 크로스 어텐션 상호작용을 수행한다.
히스토리 타깃 궤적을 인코딩하는 모션 토큰(E_motion)을 도입하고 이를 교차 주의 기반 디코더에 융합하여 비전-모션 표현을 생성한다.
추정 시 해석 가능한 IoU 분류 손실(varifocal 손실) 및 일반화 IoU 손실을 이용한 회귀를 갖는 헤드를 채택하고, 추론 시 Hannning 창 포스트-프로세싱을 적용한다.
LaSOT, TrackingNet, GOT-10k, COCO를 사용한 학습으로 AdamW와 학습률 스케줄링을 통해 안정적인 학습을 구현한다.

실험 결과

연구 질문

RQ1완전 주의적(Transformer 기반) 트래커가 Siamese 추적에서 표현 학습 및 특성 융합 측면에서 CNN 기반 및 하이브리드 트래커를 능가할 수 있는가?
RQ2히스토리궤적을 인코딩하는 모션 토큰을 도입하면 방해 요소에 대한 강건성과 시간적 일관성이 향상되는가?
RQ3간단한 연결 기반 융합과 Swin Transformer 백본이 다양한 벤치마크에서 최첨단 결과를 달성하는 데 충분한가?
RQ4위치 인코딩, 손실 함수 및 디코딩 전략과 같은 아키텍처 선택이 추적 성능과 효율성에 어떤 영향을 미치는가?

주요 결과

SwinTrack-T-224는 LaSOT에서 0.672 SUC를 달성하고 약 98 fps로 다른 Transformer 추적기와 대등한 성능을 보인다.
SwinTrack-B-384는 LaSOT에서 0.713 SUC로 새로운 기록을 세웠고 LaSOT_ext, TrackingNet, GOT-10k, TNL2k에서 강한 성능을 달성한다.
모션 토큰은 특히 LaSOT_ext 및 GOT-10k에서 성능을 크게 향상시키며, 모션 토큰이 활성화된 변형들이 모션 토큰이 없는 변형들보다 우수하다.
경량 모션 토큰은 계산 부담이 거의 없고, 어블레이션은 임베딩 기반 궤적 표현의 효과를 단순한 학습 가능 토큰보다 더 잘 보여준다.
ResNet 백본과 비교할 때 Swin Transformer 백본은 SUC 점수를 크게 향상시키며, 이 설정에서 연결 기반 융합이 교차 어텐션 기반 융합보다 우수하다.
SwinTrack은 여러 벤치마크에서 최첨단 정확도를 달성하면서도 속도(가벼운 버전의 경우 최대 98 fps)를 유지한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.