[논문 리뷰] Unified Sequence-to-Sequence Learning for Single- and Multi-Modal Visual Object Tracking
SeqTrack는 시각 추적을 간단한 인코더-디코더 트랜스포머를 사용한 자기회귀 시퀀스 생성 태스크로 바꿔, 복잡한 헤드와 손실을 제거합니다; 여러 벤치마크에서 최첨단 성능을 달성합니다.
In this paper, we introduce a new sequence-to-sequence learning framework for RGB-based and multi-modal object tracking. First, we present SeqTrack for RGB-based tracking. It casts visual tracking as a sequence generation task, forecasting object bounding boxes in an autoregressive manner. This differs from previous trackers, which depend on the design of intricate head networks, such as classification and regression heads. SeqTrack employs a basic encoder-decoder transformer architecture. The encoder utilizes a bidirectional transformer for feature extraction, while the decoder generates bounding box sequences autoregressively using a causal transformer. The loss function is a plain cross-entropy. Second, we introduce SeqTrackv2, a unified sequence-to-sequence framework for multi-modal tracking tasks. Expanding upon SeqTrack, SeqTrackv2 integrates a unified interface for auxiliary modalities and a set of task-prompt tokens to specify the task. This enables it to manage multi-modal tracking tasks using a unified model and parameter set. This sequence learning paradigm not only simplifies the tracking framework, but also showcases superior performance across 14 challenging benchmarks spanning five single- and multi-modal tracking tasks. The code and models are available at https://github.com/chenxin-dlut/SeqTrackv2.
연구 동기 및 목표
- 더 단순하고 통합된 추적 프레임워크를 다중 헤드 분류/회귀나 복잡한 손실 함수 없이 동기화하려는 동기 부여.
- 바운딩 박스 토큰을 자기회귀적으로 생성하는 시퀀스-투-시퀀스 형식 제안.
- 평범한 인코더-디코더 트랜스포머가 최첨단 추적 성능에 맞먹거나 이를 능가할 수 있음을 보임.
- 템플릿-검색 특징 추출과 토큰 기반 바운딩 박스 출력을 공동으로 이익으로 활용하는 것을 탐구
제안 방법
- 바운딩 박스를 [x, y, w, h]를 나타내는 이산 토큰 시퀀스로 변환합니다.
- ViT 기반 인코더를 사용하여 조인트 템플릿 및 검색 영역 특징을 추출합니다.
- 인과적 트랜스포머 디코더를 사용하여 바운딩 박스 토큰 시퀀스를 자기회귀적으로 생성합니다.
- 입력 프레임 조건부 토큰 시퀀스에 대해 크로스엔트로피 손실로 학습합니다.
- 네 가지 바운딩 박스 토큰이 생성될 때까지 토큰을 자동으로 생성하여 추론합니다.
- 추론 시 온라인 템플릿 업데이트 및 윈도우 페널티를 프라이어로 선택적으로 통합합니다.
실험 결과
연구 질문
- RQ1시각 추적을 특수한 헤드 없이 시퀀스 생성 문제로 효과적으로 변환할 수 있는가?
- RQ2단순한 인코더–디코더 트랜스포머가 벤치마크 전반에서 경쟁적이거나 최첨단의 추적 성능을 달성할 수 있는가?
- RQ3인코더 입력 설계(조인트 템플릿-검색 대 분리)와 바운딩 박스 토큰 순서가 성능에 어떤 영향을 미치는가?
- RQ4온라인 템플릿 업데이트와 윈도우 페널티가 SeqTrack 프레임워크 내에서 실질적 이점을 제공하는가?
주요 결과
| 방법 | LaSOT AUC | LaSOT P Norm | LaSOT P | LaSOT ext AUC | LaSOT ext P Norm | LaSOT ext P | TrackingNet AUC | TrackingNet P Norm | TrackingNet P | GOT-10k AO | GOT-10k SR 0.5 | GOT-10k SR 0.75 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SeqTrack-L384 | 72.5 | 81.5 | 79.3 | 50.7 | 61.6 | 57.5 | 85.5 | 89.8 | 85.8 | 74.8 | 81.9 | 72.2 |
| SeqTrack-L256 | 72.1 | 81.7 | 79.0 | 50.5 | 61.5 | 57.2 | 85.0 | 89.5 | 84.9 | 74.5 | 83.2 | 72.0 |
| SeqTrack-B384 | 71.5 | 81.1 | 77.8 | 50.5 | 61.6 | 57.5 | 83.9 | 88.8 | 83.6 | 74.5 | 84.3 | 71.4 |
| SeqTrack-B256 | 69.9 | 79.7 | 76.3 | 49.5 | 60.8 | 56.3 | 83.3 | 88.3 | 82.2 | 74.7 | 84.7 | 71.8 |
- SeqTrack 변형은 주요 벤치마크(LaSOT, TrackingNet, GOT-10k)에서 경쟁적이거나 최첨단에 가까운 결과를 달성합니다.
- SeqTrack-L384는 aligned 설정에서 LaSOT 72.5% AUC 및 GOT-10k 74.8% AO를 달성하여 여러 강력한 베이스라인을 능가합니다.
- SeqTrack-B256(ViT-B 인코더)을 사용할 경우 GOT-10k에서 74.7% AUC 및 LaSOT에서 72.1% AUC를 달성하면서도 일부 경쟁자보다 더 빠른 편입니다.
- SeqTrack-L384는 LaSOT에서 이전 최고 추적기보다 AUC로 1.2% 포인트 더 우수하며 변형/배경 혼잡과 같은 속성 처리에서 견고한 성능을 보입니다.
- 인과적 마스킹을 사용한 자기회귀 시퀀스 생성을 사용하는 것이 중요합니다; 양방향 토큰 예측은 자기회귀 생성에 비해 성능을 저하시킵니다.
- 템플릿 및 검색 특징을 인코더에서 공동으로 처리하는 것이 개별 인코더보다 더 나은 결과를 제공합니다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.