QUICK REVIEW

[논문 리뷰] TransTrack: Multiple Object Tracking with Transformer

Peize Sun, Jinkun Cao|arXiv (Cornell University)|2020. 12. 31.

Video Surveillance and Tracking Methods참고 문헌 62인용 수 359

한 줄 요약

TransTrack은 두 가지 쿼리 소스—탐지를 위한 학습된 객체 쿼리와 이전 프레임에서의 추적 쿼리를 이용한 전역 탐지-추적 결합 프레임워크를 도입하여 단일 샷으로 MOT를 수행합니다. 별도의 Re-ID 모듈이나 탐지 시 NMS 없이 MOT17 및 MOT20에서 경쟁력 있는 MOTA를 달성합니다.

ABSTRACT

In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.

연구 동기 및 목표

탐지와 연관 성능을 하나의 단계에서 통합하는 간단하고 효율적인 MOT 접근법을 제시한다.
트랜스포머 어텐션을 활용해 이전에 탐지된 객체를 추적 프레임 간에 전파하면서 새로운 객체를 탐지한다.
탐지에서 다단계 파이프라인 및 NMS와 같은 후처리를 제거하거나 축소한다.
MOT17 및 MOT20 벤치마크에서 경쟁력 있는 MOT 성능을 입증한다.
MOT에서 쿼리 입력 및 매칭 전략에 대한 설계 선택에 대한 통찰을 제공한다.]
method:[

제안 방법

학습된 객체 쿼리에서 탐지 상자를 예측하는 디코더와 이전 프레임 객체로부터 파생된 트랙 쿼리에서 추적 상자를 예측하는 두 분기 디코더 아키텍처를 사용한다.
연속된 두 프레임의 융합 피처에 공통 인코더를 사용하여 두 디코더의 백본으로 삼는다.
탐지 상자와 추적 상자 두 세트를 출력하고 IoU 기반 헝가리 매칭으로 최종 트랙 세트를 구성한다.
매칭된 페어에 대해 세트 기반 손실(분류, L1, 일반화된 IoU)을 사용하여 학습한다, DETR 스타일 손실을 따름.
다중 스케일 피처를 융합하고 정확도를 높이기 위해 기본 아키텍처로 변형 가능한 트랜스포머를 채택한다.
추론 중 가려짐에 대한 강건성을 위해 매칭되지 않은 추적 상자를 K 프레임 동안 활성화된 상태로 두고 트랙 재생성(track rebirth)을 수행한다.

실험 결과

연구 질문

RQ1트랜스포머 기반 MOT 모델이 별도 Re-ID 모듈 없이도 프레임 간에 객체를 함께 탐지하고 연관지을 수 있는가?
RQ2이전 프레임의 트랙 쿼리를 포함시키는 것이 MOT에서 객체 연관 및 탐지의 강건성에 어떤 영향을 미치는가?
RQ3이중 쿼리 스트림(객체 쿼리와 트랙 쿼리)을 사용하는 것이 MOTA와 ID와 같은 MOT 성능 지표에 미치는 영향은 무엇인가?
RQ4합리적인 속도를 유지하면서 MOT 성능을 극대화하는 어떤 아키텍처 선택(예: 변형 가능한 트랜스포머)이 있는가?
RQ5혼잡한 MOT 벤치마크에서 TransTrack이 detector-plus-motion 또는 detector-plus-Re-ID 베이스라인과 어떻게 비교되는가?

주요 결과

Bench mark	Method	Data	MOTA ↑	IDF1 ↑	MOTP ↑	MT ↑	ML ↓	FP ↓	FN ↓	IDS ↓
MOT17	TransTrack (ours)	CH	74.5	63.9	80.6	46.8	11.3	28323	112137	3663
MOT20	TransTrack (ours)	CH	64.5	59.2	80.0	49.1	13.6	28566	151377	3565

TransTrack은 프라이빗 디텍터 설정에서 MOT17에서 74.5 MOTA, MOT20에서 64.5 MOTA를 달성하여 경쟁력 있는 성능을 보여준다.
객체 쿼리와 트랙 쿼리를 함께 사용할 때 단독으로 사용할 때보다 탐지 및 추적 성능이 크게 향상된다.
변형 가능한 트랜스포머를 백본으로 사용하면 테스트된 아키텍처 중 최상의 MOTA(65.0)를 얻고, 강력한 위치 정확도(MOTP)와 낮은 ID를 달성한다.
IoU 기반 헝가리 매칭을 갖춘 두 디코더 설계는 전통적인 NMS를 대체하고 프레임 간 강력한 연관성을 제공한다.
사전 학습 데이터로 CrowdHuman을 포함하고 MOT 미세조정을 수행하면 MOT17 성능이 상당한 차이로 향상되며(CrowdHuman으로 사전 학습하면 MOTA가 64.8로 61.6에서 상승).
모션 모델 비교에서 TransTrack의 트랙 쿼리 방식은 칼만 필터 기반 방법과 동등하거나 더 나은 ID-switch 강건성을 제공하며, 특히 더 적은 프레임을 샘플링할 때 그렇다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.