Skip to main content
QUICK REVIEW

[논문 리뷰] TransTrack: Multiple Object Tracking with Transformer

Peize Sun, Jinkun Cao|arXiv (Cornell University)|2020. 12. 31.
Video Surveillance and Tracking Methods참고 문헌 62인용 수 359
한 줄 요약

TransTrack은 두 가지 쿼리 소스—탐지를 위한 학습된 객체 쿼리와 이전 프레임에서의 추적 쿼리를 이용한 전역 탐지-추적 결합 프레임워크를 도입하여 단일 샷으로 MOT를 수행합니다. 별도의 Re-ID 모듈이나 탐지 시 NMS 없이 MOT17 및 MOT20에서 경쟁력 있는 MOTA를 달성합니다.

ABSTRACT

In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.

연구 동기 및 목표

  • 탐지와 연관 성능을 하나의 단계에서 통합하는 간단하고 효율적인 MOT 접근법을 제시한다.
  • 트랜스포머 어텐션을 활용해 이전에 탐지된 객체를 추적 프레임 간에 전파하면서 새로운 객체를 탐지한다.
  • 탐지에서 다단계 파이프라인 및 NMS와 같은 후처리를 제거하거나 축소한다.
  • MOT17 및 MOT20 벤치마크에서 경쟁력 있는 MOT 성능을 입증한다.
  • MOT에서 쿼리 입력 및 매칭 전략에 대한 설계 선택에 대한 통찰을 제공한다.]
  • method:[

제안 방법

  • 학습된 객체 쿼리에서 탐지 상자를 예측하는 디코더와 이전 프레임 객체로부터 파생된 트랙 쿼리에서 추적 상자를 예측하는 두 분기 디코더 아키텍처를 사용한다.
  • 연속된 두 프레임의 융합 피처에 공통 인코더를 사용하여 두 디코더의 백본으로 삼는다.
  • 탐지 상자와 추적 상자 두 세트를 출력하고 IoU 기반 헝가리 매칭으로 최종 트랙 세트를 구성한다.
  • 매칭된 페어에 대해 세트 기반 손실(분류, L1, 일반화된 IoU)을 사용하여 학습한다, DETR 스타일 손실을 따름.
  • 다중 스케일 피처를 융합하고 정확도를 높이기 위해 기본 아키텍처로 변형 가능한 트랜스포머를 채택한다.
  • 추론 중 가려짐에 대한 강건성을 위해 매칭되지 않은 추적 상자를 K 프레임 동안 활성화된 상태로 두고 트랙 재생성(track rebirth)을 수행한다.

실험 결과

연구 질문

  • RQ1트랜스포머 기반 MOT 모델이 별도 Re-ID 모듈 없이도 프레임 간에 객체를 함께 탐지하고 연관지을 수 있는가?
  • RQ2이전 프레임의 트랙 쿼리를 포함시키는 것이 MOT에서 객체 연관 및 탐지의 강건성에 어떤 영향을 미치는가?
  • RQ3이중 쿼리 스트림(객체 쿼리와 트랙 쿼리)을 사용하는 것이 MOTA와 ID와 같은 MOT 성능 지표에 미치는 영향은 무엇인가?
  • RQ4합리적인 속도를 유지하면서 MOT 성능을 극대화하는 어떤 아키텍처 선택(예: 변형 가능한 트랜스포머)이 있는가?
  • RQ5혼잡한 MOT 벤치마크에서 TransTrack이 detector-plus-motion 또는 detector-plus-Re-ID 베이스라인과 어떻게 비교되는가?

주요 결과

Bench markMethodDataMOTA ↑IDF1 ↑MOTP ↑MT ↑ML ↓FP ↓FN ↓IDS ↓
MOT17TransTrack (ours)CH74.563.980.646.811.3283231121373663
MOT20TransTrack (ours)CH64.559.280.049.113.6285661513773565
  • TransTrack은 프라이빗 디텍터 설정에서 MOT17에서 74.5 MOTA, MOT20에서 64.5 MOTA를 달성하여 경쟁력 있는 성능을 보여준다.
  • 객체 쿼리와 트랙 쿼리를 함께 사용할 때 단독으로 사용할 때보다 탐지 및 추적 성능이 크게 향상된다.
  • 변형 가능한 트랜스포머를 백본으로 사용하면 테스트된 아키텍처 중 최상의 MOTA(65.0)를 얻고, 강력한 위치 정확도(MOTP)와 낮은 ID를 달성한다.
  • IoU 기반 헝가리 매칭을 갖춘 두 디코더 설계는 전통적인 NMS를 대체하고 프레임 간 강력한 연관성을 제공한다.
  • 사전 학습 데이터로 CrowdHuman을 포함하고 MOT 미세조정을 수행하면 MOT17 성능이 상당한 차이로 향상되며(CrowdHuman으로 사전 학습하면 MOTA가 64.8로 61.6에서 상승).
  • 모션 모델 비교에서 TransTrack의 트랙 쿼리 방식은 칼만 필터 기반 방법과 동등하거나 더 나은 ID-switch 강건성을 제공하며, 특히 더 적은 프레임을 샘플링할 때 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.