QUICK REVIEW

[논문 리뷰] SparseTrack: Multi-Object Tracking by Performing Scene Decomposition based on Pseudo-Depth

Zelin Liu, Xinggang Wang|arXiv (Cornell University)|2023. 06. 08.

Video Surveillance and Tracking Methods인용 수 30

한 줄 요약

SparseTrack는 의사 깊이 기반의 장면 분해와 깊이 캐스케이드 매칭을 도입하여 혼잡한 MOT 장면에서 IoU-만 데이터 연결을 수행하고 MOT17, MOT20, DanceTrack에서 경쟁력 있는 결과를 제공합니다.

ABSTRACT

Exploring robust and efficient association methods has always been an important issue in multiple-object tracking (MOT). Although existing tracking methods have achieved impressive performance, congestion and frequent occlusions still pose challenging problems in multi-object tracking. We reveal that performing sparse decomposition on dense scenes is a crucial step to enhance the performance of associating occluded targets. To this end, we propose a pseudo-depth estimation method for obtaining the relative depth of targets from 2D images. Secondly, we design a depth cascading matching (DCM) algorithm, which can use the obtained depth information to convert a dense target set into multiple sparse target subsets and perform data association on these sparse target subsets in order from near to far. By integrating the pseudo-depth method and the DCM strategy into the data association process, we propose a new tracker, called SparseTrack. SparseTrack provides a new perspective for solving the challenging crowded scene MOT problem. Only using IoU matching, SparseTrack achieves comparable performance with the state-of-the-art (SOTA) methods on the MOT17 and MOT20 benchmarks. Code and models are publicly available at \url{https://github.com/hustvl/SparseTrack}.

연구 동기 및 목표

가려짐이 만연한 혼잡한 MOT에서 강력한 데이터 연계를 촉진한다.
가벼운 IoU 전용 추적기를 제안하여 깊이에 기반한 장면 분해로 가려짐을 줄인다.
간단한 지면-평면 가정 하에서 2D 이미지로부터 상대 깊이를 추정하기 위해 의사 깊이를 도입한다.
깊이 캐스케이드 매칭(DCM)을 개발하여 깊이 하위 집합 간의 계층적 연결을 수행한다.
제안된 접근 방식이 표준 MOT 벤치마크에서 최첨단 방법과 경쟁하거나 이에 상응함을 증명한다.

제안 방법

지면 평면 priors를 사용하여 2D 이미지에서 탐지 및 트랙의 의사 깊이 값을 계산한다.
의사 깊이 값을 통해 장면을 깊이 기반 하위 집합으로 분할한다.
가까운 깊이부터 먼 깊이까지 각 깊이 하위 집합에서 IoU 기반 연결을 수행하기 위해 깊이 캐스케이드 매칭을 적용한다.
동작 예측을 위해 칼만 필터를 사용하고 매칭에 IoU 거리를 활용하며, 높음/낮음 점수 기반 탐지 분할로 깊이 수준을 안내한다.
DCM은 플러그 앤 플레이 방식으로 다른 IoU 기반 트래커에 통합되어 가려짐 처리를 개선할 수 있다.

실험 결과

연구 질문

RQ12D 영상으로부터 파생된 의사 깊이가 상대 깊이를 신뢰성 있게 드러내어 깊이 기반 장면 분해를 가능하게 하는가?
RQ2깊이 분할 하위 집합에서 IoU 기반 데이터 연결을 수행(D CM)하면 혼잡한 MOT 시나리오에서 가려짐으로 인한 오류를 줄일 수 있는가?
RQ3표준 MOT 벤치마크(MOT17, MOT20) 및 도전적인 데이터셋(DanceTrack)에서 SparseTrack의 성능은 기본 IoU 기반 추적기와 비교하여 어떠한가?
RQ4깊이 캐스케이드 매칭 접근이 다른 추적기에 드롭인 모듈로 일반화될 수 있는가?
RQ5dense 한 장면에서 의사 깊이 수준의 수가 연결 성능에 미치는 영향은 무엇인가?

주요 결과

IoU 전용 데이터 연결으로 MOT17에서 경쟁력 있는 결과를 달성, 예: 테스트 세트에서 65.1 HOTA, 81.0 MOTA, 80.1 IDF1.
MOT20에서 63.4 HOTA, 78.2 MOTA, 77.3 IDF1로 기본 IoU 방법보다 우수.
DanceTrack에서 55.5 HOTA, 91.3 IDF1, 58.3으로 강력한 IoU-전용 방법으로서 Baseline 대비 큰 향상.
의사 깊이와 DCM을 통한 깊이 기반 장면 분해는 다양한 기반선에서 연결 지표를 지속적으로 개선하였고, 때로는 appearance 특징 없이도 SOTA에 근접.
DCM 모듈은 플러그 앤 플레이로서 IoU 기반 데이터 연결에 의존하는 다른 트래커에 통합될 때 성능을 향상시킨다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.