[논문 리뷰] Target Transformed Regression for Accurate Tracking
TREG는 앵커 프리 추적을 위한 타깃 인식 Transformer 기반 회귀 분기를 도입하고, 온라인 타깃 템플릿 큐를 활용하여 약 30 FPS에서 여덟 가지 벤치마크에서 최첨단 결과를 달성합니다.
Accurate tracking is still a challenging task due to appearance variations, pose and view changes, and geometric deformations of target in videos. Recent anchor-free trackers provide an efficient regression mechanism but fail to produce precise bounding box estimation. To address these issues, this paper repurposes a Transformer-alike regression branch, termed as Target Transformed Regression (TREG), for accurate anchor-free tracking. The core to our TREG is to model pair-wise relation between elements in target template and search region, and use the resulted target enhanced visual representation for accurate bounding box regression. This target contextualized representation is able to enhance the target relevant information to help precisely locate the box boundaries, and deal with the object deformation to some extent due to its local and dense matching mechanism. In addition, we devise a simple online template update mechanism to select reliable templates, increasing the robustness for appearance variations and geometric deformations of target in time. Experimental results on visual tracking benchmarks including VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT and TrackingNet demonstrate that TREG obtains the state-of-the-art performance, achieving a success rate of 0.640 on LaSOT, while running at around 30 FPS. The code and models will be made available at https://github.com/MCG-NJU/TREG.
연구 동기 및 목표
- 앵커 프리 추적에서 회귀 중 타깃 경계 정보를 보존하여 정확도 향상을 모티브로 삼는 것.
- 쌍대 타깃-검색 상호작용을 통해 타깃 외관을 밀접하게 통합하는 회귀 분기를 개발하는 것.
- appearance variations and deformations over time에 적응하기 위한 온라인 타깃 템플릿 큐를 포함하는 것.
- 여덟 개 주요 추적 벤치마크에서 최첨단 성능을 입증하는 것.
- 실용적 응용을 위한 실시간 효율성(~30 FPS)을 유지하는 것.
제안 방법
- 타깃 템플릿 요소를 키/값으로 인코딩하고 검색 영역 특징을 쿼리로 사용하여 타깃 보강 표현을 생성하고 경계 오프셋 회귀를 정밀하게 수행하는 타깃 인식 변형기 회귀 분기를 제안한다.
- 신뢰도 기반 전략에 따라 업데이트되는 간단한 온라인 템플릿 큐(정적 타깃 3개 + 온라인 타깃 4개) 구현으로 외관 변화에 대응한다.
- 타깃 변환 회귀와 온라인 분류 분기(DiMP 스타일)를 결합하여 완전한 앵커 프리 트래커를 형성한다.
- ResNet-50 백본과 회귀 헤드에 변형 가능 합성(convolution)을 사용하고 IoU 기반 회귀 손실 및 표준 분류 목적을 사용하여 엔드 투 엔드로 학습한다.
- 여덟 개 벤치마크(VOT2018/2019, LaSOT, TrackingNet, GOT10k, UAV123, NFS, OTB100)에서 SOTA 성능을 확립하기 위해 평가한다.
- 단일 RTX 2080Ti에서 추론 속도 약 30 FPS를 유지한다.
실험 결과
연구 질문
- RQ1타깃 정보가 변형 및 시점 변화하에서 경계 정확도를 보존하기 위해 앵커 프리 회귀 분기에 어떻게 통합될 수 있는가?
- RQ2트랜스포머 유사한 타깃 인식 회귀가 추적에서 깊이별 상관 또는 픽셀 단위 주의에 비해 정밀도와 강건성을 향상시키는가?
- RQ3화면 변동에 대한 타깃 템플릿 큐의 신뢰도 기반 업데이트가 시간에 따른 외관 변화에 대한 추적 강건성에 어떤 영향을 미치는가?
- RQ4TREG를 분류 헤드(DiMP 기반)와 결합하면 다양한 벤치마크에서 최첨단 성능을 달성할 수 있는가?
주요 결과
- TREG는 LaSOT의 성공률 0.640 등 여덟 개 벤치마크에서 약 30 FPS로 최첨단 결과를 달성한다.
- 기준 실험에서 타깃 인식 트랜스포머가 깊이별 상관 및 픽셀 단위 주의 변형에 비해 정밀도와 AUC를 유의하게 향상시켰다.
- 신뢰도 기반 전략으로 온라인 템플릿 업데이트를 적용하면 정지 템플릿만 사용할 때보다 AUC가 약 0.9–1.2 포인트, 정밀도는 1.2–1.5 포인트 개선된다.
- VOT2018에서 TREG는 EAO 0.496, 강건성 0.098을 달성하며 이전 트래커를 능가한다.
- VOT2019에서 TREG는 EAO 0.391, 강건성 0.221, 정밀도 0.603를 달성하여 이전 방법들을 넘어선다.
- TrackingNet 결과에서 TREG를 사용할 때 정밀도, 정규화 정밀도, 성공율에 눈에 띄는 향상이 나타난다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.