Skip to main content
QUICK REVIEW

[논문 리뷰] 3D Multi-Object Tracking: A Baseline and New Evaluation Metrics

Xinshuo Weng, Jianren Wang|arXiv (Cornell University)|2019. 07. 09.
Video Surveillance and Tracking Methods참고 문헌 58인용 수 38
한 줄 요약

간단한 실시간 3D MOT 시스템을 3D 칼만 필터와 Hungarian 매칭으로 제안하고, 3D MOT 평가 도구와 sAMOTA를 포함한 세 가지 적분 지표(AMOTA, AMOTP, AMOTA)를 도입하며 KITTI와 nuScenes에서 높은 FPS로 최첨단 성능을 보고합니다.

ABSTRACT

3D multi-object tracking (MOT) is an essential component for many applications such as autonomous driving and assistive robotics. Recent work on 3D MOT focuses on developing accurate systems giving less attention to practical considerations such as computational cost and system complexity. In contrast, this work proposes a simple real-time 3D MOT system. Our system first obtains 3D detections from a LiDAR point cloud. Then, a straightforward combination of a 3D Kalman filter and the Hungarian algorithm is used for state estimation and data association. Additionally, 3D MOT datasets such as KITTI evaluate MOT methods in the 2D space and standardized 3D MOT evaluation tools are missing for a fair comparison of 3D MOT methods. Therefore, we propose a new 3D MOT evaluation tool along with three new metrics to comprehensively evaluate 3D MOT methods. We show that, although our system employs a combination of classical MOT modules, we achieve state-of-the-art 3D MOT performance on two 3D MOT benchmarks (KITTI and nuScenes). Surprisingly, although our system does not use any 2D data as inputs, we achieve competitive performance on the KITTI 2D MOT leaderboard. Our proposed system runs at a rate of $207.4$ FPS on the KITTI dataset, achieving the fastest speed among all modern MOT systems. To encourage standardized 3D MOT evaluation, our system and evaluation code are made publicly available at https://github.com/xinshuoweng/AB3DMOT.

연구 동기 및 목표

  • 고전적 MOT 모듈(3D Kalman filter와 Hungarian 매칭)을 기반으로 간단한 실시간 3D MOT 기준선을 제공한다.
  • 다양한 동작 포인트에서 평가하기 위한 표준화된 3D MOT 평가 도구와 세 가지 적분 지표를 도입한다.
  • 제안된 기준선이 KITTI와 nuScenes의 3D MOT 벤치마크에서 최첨단 성능을 달성함을 보인다.
  • Appearance 특징이나 학습에 과도하게 의존하지 않고도 시스템이 높은 속도로 작동할 수 있음을 보여준다.

제안 방법

  • LiDAR 포인트 클라우드로부터 상용(detector)을 사용해 3D 탐지를 추출한다.
  • 3D 상태를 확장: (x, y, z, θ, l, w, h, s, vx, vy, vz).
  • 3D 상수 속도 모델로 궤적을 예측한다.
  • 3D IoU 또는 센터 간 거리 친화도(dis)를 사용하여 Hungarian 알고리즘으로 탐지와 예측을 연결한다.
  • 일치된 상태를 Bayes 기반 업데이트로 갱신하고 필요 시 방향 보정을 포함한다.
  • 새 트랙 생성 지연과 트랙의 최대 수명을 두고 birth/death 메모리로 트랙의 탄생과 소멸을 관리한다.

실험 결과

연구 질문

  • RQ13D Kalman filter와 Hungarian 매칭에 기반한 간단한 3D MOT 파이프라인이 표준 3D 벤치마크에서 강력한 MOT 성능을 달성할 수 있는가?
  • RQ23D 공간에서 직접 작동하는 시스템을 공정하게 비교하기 위해 3D MOT는 어떻게 평가되어야 하는가?
  • RQ3다중 임계값에 걸친 적분 지표(AMOTA, AMOTP, sAMOTA)가 단일 임계값 지표보다 3D MOT 방법을 비교하는 데 더 견고한 근거를 제공하는가?
  • RQ43D 기반 MOT 접근법이 정확도와 속도 측면에서 2D 중심 접근법에 비해 이점이 있는가?

주요 결과

MethodInput DataMatching criteriasAMOTAAMOTAAMOTPMOTAMOTPIDSFRAGFPS
mmMOT2D + 3DIoU_thres = 0.2570.6133.0872.4574.0778.1610554.8 (GPU)
FANTrack2D + 3DIoU_thres = 0.2582.9740.0375.0174.3075.243520225.0 (GPU)
Ours3DIoU_thres = 0.2593.2845.4377.4186.2478.43015207.4 (CPU)
  • 제안된 3D MOT 기준선은 KITTI 및 nuScenes 3D MOT 벤치마크에서 최첨단 성능을 달성한다.
  • 시스템은 KITTI에서 207.4 FPS로 동시대 MOT 시스템 중 가장 빠르다.
  • 세 가지 새로운 지표(AMOTA, AMOTP, AMOTA)와 두 개의 스케일링된 변형(sAMOTA, AMOTA)을 제안해 모든 임계값에서의 성능을 요약한다.
  • 새로운 3D MOT 평가 도구가 3D 공간에서 3D IoU 또는 중심 거리 기준으로 직접 평가하며, 평가를 위해 영상면으로의 투영을 피한다.
  • 2D 입력 없이도 3D 기반 방법이 KITTI의 2D MOT 리더보드에서 경쟁력 있는 결과를 달성하는데, 이는 3D 추적에서 깊이 해상도가 더 좋아서일 가능성이 있다.
  • Ablation 연구는 각 구성 요소의 중요성(예: 각속도 도입 및 방향 처리)이 성능에 미치는 영향을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.