[논문 리뷰] TransTrack: Multiple Object Tracking with Transformer
TransTrack은 두 가지 쿼리 소스—탐지를 위한 학습된 객체 쿼리와 이전 프레임에서의 추적 쿼리를 이용한 전역 탐지-추적 결합 프레임워크를 도입하여 단일 샷으로 MOT를 수행합니다. 별도의 Re-ID 모듈이나 탐지 시 NMS 없이 MOT17 및 MOT20에서 경쟁력 있는 MOTA를 달성합니다.
In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.
연구 동기 및 목표
- 탐지와 연관 성능을 하나의 단계에서 통합하는 간단하고 효율적인 MOT 접근법을 제시한다.
- 트랜스포머 어텐션을 활용해 이전에 탐지된 객체를 추적 프레임 간에 전파하면서 새로운 객체를 탐지한다.
- 탐지에서 다단계 파이프라인 및 NMS와 같은 후처리를 제거하거나 축소한다.
- MOT17 및 MOT20 벤치마크에서 경쟁력 있는 MOT 성능을 입증한다.
- MOT에서 쿼리 입력 및 매칭 전략에 대한 설계 선택에 대한 통찰을 제공한다.]
- method:[
제안 방법
- 학습된 객체 쿼리에서 탐지 상자를 예측하는 디코더와 이전 프레임 객체로부터 파생된 트랙 쿼리에서 추적 상자를 예측하는 두 분기 디코더 아키텍처를 사용한다.
- 연속된 두 프레임의 융합 피처에 공통 인코더를 사용하여 두 디코더의 백본으로 삼는다.
- 탐지 상자와 추적 상자 두 세트를 출력하고 IoU 기반 헝가리 매칭으로 최종 트랙 세트를 구성한다.
- 매칭된 페어에 대해 세트 기반 손실(분류, L1, 일반화된 IoU)을 사용하여 학습한다, DETR 스타일 손실을 따름.
- 다중 스케일 피처를 융합하고 정확도를 높이기 위해 기본 아키텍처로 변형 가능한 트랜스포머를 채택한다.
- 추론 중 가려짐에 대한 강건성을 위해 매칭되지 않은 추적 상자를 K 프레임 동안 활성화된 상태로 두고 트랙 재생성(track rebirth)을 수행한다.
실험 결과
연구 질문
- RQ1트랜스포머 기반 MOT 모델이 별도 Re-ID 모듈 없이도 프레임 간에 객체를 함께 탐지하고 연관지을 수 있는가?
- RQ2이전 프레임의 트랙 쿼리를 포함시키는 것이 MOT에서 객체 연관 및 탐지의 강건성에 어떤 영향을 미치는가?
- RQ3이중 쿼리 스트림(객체 쿼리와 트랙 쿼리)을 사용하는 것이 MOTA와 ID와 같은 MOT 성능 지표에 미치는 영향은 무엇인가?
- RQ4합리적인 속도를 유지하면서 MOT 성능을 극대화하는 어떤 아키텍처 선택(예: 변형 가능한 트랜스포머)이 있는가?
- RQ5혼잡한 MOT 벤치마크에서 TransTrack이 detector-plus-motion 또는 detector-plus-Re-ID 베이스라인과 어떻게 비교되는가?
주요 결과
| Bench mark | Method | Data | MOTA ↑ | IDF1 ↑ | MOTP ↑ | MT ↑ | ML ↓ | FP ↓ | FN ↓ | IDS ↓ |
|---|---|---|---|---|---|---|---|---|---|---|
| MOT17 | TransTrack (ours) | CH | 74.5 | 63.9 | 80.6 | 46.8 | 11.3 | 28323 | 112137 | 3663 |
| MOT20 | TransTrack (ours) | CH | 64.5 | 59.2 | 80.0 | 49.1 | 13.6 | 28566 | 151377 | 3565 |
- TransTrack은 프라이빗 디텍터 설정에서 MOT17에서 74.5 MOTA, MOT20에서 64.5 MOTA를 달성하여 경쟁력 있는 성능을 보여준다.
- 객체 쿼리와 트랙 쿼리를 함께 사용할 때 단독으로 사용할 때보다 탐지 및 추적 성능이 크게 향상된다.
- 변형 가능한 트랜스포머를 백본으로 사용하면 테스트된 아키텍처 중 최상의 MOTA(65.0)를 얻고, 강력한 위치 정확도(MOTP)와 낮은 ID를 달성한다.
- IoU 기반 헝가리 매칭을 갖춘 두 디코더 설계는 전통적인 NMS를 대체하고 프레임 간 강력한 연관성을 제공한다.
- 사전 학습 데이터로 CrowdHuman을 포함하고 MOT 미세조정을 수행하면 MOT17 성능이 상당한 차이로 향상되며(CrowdHuman으로 사전 학습하면 MOTA가 64.8로 61.6에서 상승).
- 모션 모델 비교에서 TransTrack의 트랙 쿼리 방식은 칼만 필터 기반 방법과 동등하거나 더 나은 ID-switch 강건성을 제공하며, 특히 더 적은 프레임을 샘플링할 때 그렇다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.