Skip to main content
QUICK REVIEW

[논문 리뷰] ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking

Yutong Kou, Jin Gao|arXiv (Cornell University)|2023. 10. 16.
Visual Attention and Saliency Detection인용 수 17
한 줄 요약

ZoomTrack은 타깃이 나타날 가능성이 높은 영역을 확대하면서도 해당 영역의 해상도를 보존하는 타깃 인식 비균일 리사이징 모듈을 도입하여, 여러 트래커에서 대형 입력 기반보다 빠른 추적 성능에 근접하거나 이를 능가하게 합니다.

ABSTRACT

Recently, the transformer has enabled the speed-oriented trackers to approach state-of-the-art (SOTA) performance with high-speed thanks to the smaller input size or the lighter feature extraction backbone, though they still substantially lag behind their corresponding performance-oriented versions. In this paper, we demonstrate that it is possible to narrow or even close this gap while achieving high tracking speed based on the smaller input size. To this end, we non-uniformly resize the cropped image to have a smaller input size while the resolution of the area where the target is more likely to appear is higher and vice versa. This enables us to solve the dilemma of attending to a larger visual field while retaining more raw information for the target despite a smaller input size. Our formulation for the non-uniform resizing can be efficiently solved through quadratic programming (QP) and naturally integrated into most of the crop-based local trackers. Comprehensive experiments on five challenging datasets based on two kinds of transformer trackers, \ie, OSTrack and TransT, demonstrate consistent improvements over them. In particular, applying our method to the speed-oriented version of OSTrack even outperforms its performance-oriented counterpart by 0.6% AUC on TNL2K, while running 50% faster and saving over 55% MACs. Codes and models are available at https://github.com/Kou-99/ZoomTrack.

연구 동기 및 목표

  • 입력 크롭의 리사이즈 방식을 바꿔 정확도를 해치지 않으면서 트랜스포머 기반 트래커의 속도 향상을 모티브합니다.
  • 인간 시각 처리에서 영감을 받은 저오버헤드의 제어 가능한 비균일 리사이징 모듈을 제안합니다.
  • 크롭 기반 트래커에 리사이징 모듈을 통합하고 다중 벤치마크에서 평가합니다.
  • 적은 계산으로 속도 지향 트래커가 성능 지향 변종과의 격차를 좁히거나 이를 능가할 수 있음을 보여줍니다.

제안 방법

  • 소스 크롭과 타깃 크롭 사이의 비균일 리사이징을 표현하기 위한 작고 제어 가능한 격자를 정의합니다.
  • 확대(zooom)와 강성 에너지 및 선형 제약 조건을 포함하는 2차 계획법(QP) 문제로 격자 조작을 수식화합니다.
  • 시간적 사전 정보를 중심으로 중요도 맵을 계산해 타깃 영역을 확대하고 격자 간격에 편향을 주도록 합니다.
  • QP를 풀어 격자 간격을 얻고 소스 이미지를 샘플링해 비균일 리사이즈된 타깃 패치를 만듭니다.
  • 학습 및 추론 중 기존 트래커(OSTrack 및 TransT)와 리사이징 모듈을 통합합니다.

실험 결과

연구 질문

  • RQ1타깃 인식 비균일 리사이징이 계산 비용을 증가시키지 않으면서 추적 정확도를 향상시킬 수 있을까요?
  • RQ2ZoomTrack이 다양한 데이터셋에서 속도 지향 트래커와 성능 지향 트래커 간의 성능 격차를 좁힐 수 있을까요?
  • RQ3리사이징이 과도한 변형이나 자르기를 피하면서 가능성이 높은 타깃 영역을 어떻게 확대해야 할까요?
  • RQ4이 접근법이 서로 다른 트랜스포머 기반 트래커에 일반화될 수 있을까요?

주요 결과

  • ZoomTrack은 다섯 개의 도전적인 데이터셋에서 OSTrack 및 TransT 베이스라인을 지속적으로 향상시킵니다.
  • 속도 지향적 OSTrack에 ZoomTrack을 적용하면, 더 큰 입력의 성능 지향 변종에 비해 경쟁력 있거나 우수한 성능을 달성하면서 MAC를 55% 이상 감소시키고 일부 벤치마크에서 대략 50% 빠르게 실행합니다.
  • 이 방법은 GOT-10k, LaSOT, LaSOT ext, TNL2K에서 주목할 만한 이득을 달성하고, TrackingNet에서는 맥락에 따라 작거나 중간 규모의 이득을 제공합니다.
  • 비균일 리사이징 모듈은 소량의 CPU 전용 오버헤드(~1.58 ms)를 초래하지만 동일하거나 작은 입력 크기에서 균일 리사이징보다 더 높은 정확도를 제공합니다.
  • 절제 연구는 제어 가능한 확대(감마 ≈ 1.5), 변형에 대한 안정성 및 학습/테스트 중 어느 맥락에서든 적용시의 효과를 입증합니다.
  • 이 방법은 파라미터 공유를 통해 다양한 트래커(OSTrack 및 TransT)와 데이터셋 특수 조정 없이 통합될 수 있습니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.