Skip to main content
QUICK REVIEW

[논문 리뷰] Simple Online and Realtime Tracking with a Deep Association Metric

Nicolai Wojke, Alex Bewley|arXiv (Cornell University)|2017. 03. 21.
Video Surveillance and Tracking Methods참고 문헌 17인용 수 119
한 줄 요약

SORT에 깊은 appearance metric을 추가하여 온라인 다중 객체 추적을 개선; 프리트레인된 CNN을 appearance descriptors로 사용하고 매칭 캐스케이드를 통해 신원 전환을 약 45% 감소시키면서 실시간 성능을 유지합니다.

ABSTRACT

Simple Online and Realtime Tracking (SORT) is a pragmatic approach to multiple object tracking with a focus on simple, effective algorithms. In this paper, we integrate appearance information to improve the performance of SORT. Due to this extension we are able to track objects through longer periods of occlusions, effectively reducing the number of identity switches. In spirit of the original framework we place much of the computational complexity into an offline pre-training stage where we learn a deep association metric on a large-scale person re-identification dataset. During online application, we establish measurement-to-track associations using nearest neighbor queries in visual appearance space. Experimental evaluation shows that our extensions reduce the number of identity switches by 45%, achieving overall competitive performance at high frame rates.

연구 동기 및 목표

  • 가려짐에 대한 온라인 다중 객체 추적의 견고성을 appearance 정보를 도입하여 향상시키고자 한다.
  • SORT와 비교해 단순성 및 실시간 성능을 유지한다.
  • 오프라인에서 학습된 깊은 appearance 특징을 온라인 데이터 연합에 활용한다.
  • MOT16에서 신원 전환 및 전반적 추적 지표의 감소를 정량화한다.

제안 방법

  • Kalman 필터 기반의 단일 가설 추적을 프레임별 데이터 연합으로 유지한다.
  • 데이터 연합 메트릭 두 가지를 통합한다: (i) 움직임 기반 게이팅을 위한 Mahalanobis 거리; (ii) 깊은 CNN 특징으로 appearance 공간의 코사인 거리.
  • 결합 비용 c_{i,j} = lambda * d^(1)(i,j) + (1 - lambda) * d^(2)(i,j)를 계산하고 두 메트릭으로 연합을 게이트한다.
  • 연령에 따라 최근에 관찰된 트랙을 우선시하는 매칭 캐스케이드를 사용해 일련의 서브 문제를 해결하고 단편화를 줄인다.
  • cropped 바운딩 박스에서 128-차원 L2 정규화 appearance descriptors를 생성하기 위해 깊은 CNN을 사용; 특징은 대규모 인물 재식별 데이터셋으로 학습되었으며 appearance 공간에서 온라인 최근접 이웃 매칭.
  • 온라인 추적을 가능하게 하는 특징 추출용 프리트레인 CNN 모델 및 코드 제공.

실험 결과

연구 질문

  • RQ1오프라인으로 학습된 appearance 정보가 SORT의 온라인 추적 성능을 실시간 속도를 희생하지 않으면서 개선할 수 있는가?
  • RQ2움직임 및 appearance 단서를 어떻게 융합하여 가림 및 탐지 누락 동안 신원을 최대한 보존할 것인가?
  • RQ3appearance 기반 데이터 연합이 온라인 추적에서 ID 전환 및 트랙 단절에 미치는 영향은 무엇인가?
  • RQ4Extended SORT가 MOT16에서 표준 탐지로 최신 온라인 추적기들과 경쟁할 수 있는가?

주요 결과

MOTAMOTPMTMLIDFMFPFNRuntime
61.479.132.8%18.2%7812008128525666840 Hz
  • ID 전환이 1423(SORT)에서 781(Deep SORT)로 감소하여 대략 45% 감소를 보인다.
  • Deep SORT는 ID 전환을 줄이면서 онлайн 처리 속도 약 20 Hz를 유지하며 MOT 점수와 경쟁력을 달성한다.
  • MOT16 결과에서 Deep SORT(온라인)는 MOTA 61.4, MOTP 79.1, MT 32.8%, ML 18.2%, ID 781, FM 2008, FP 12852, FN 56668, Runtime 40 Hz를 보고한다.
  • appearance 정보를 활용해 더 긴 가림 속에서도 신원을 유지한다.
  • GPU 자원이 뜨거울 때 특징 추출에 걸리는 시간이 대략 절반 정도를 차지하는 등 실시간 사용에 충분히 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.