Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Object Tracking with Siamese Track-RCNN

Bing Shuai, Andrew Berneshawi|arXiv (Cornell University)|2020. 04. 16.
Video Surveillance and Tracking Methods참고 문헌 59인용 수 24
한 줄 요약

이 논문은 공통 백본 브랜치를 공유하는 단일 엔드 투 엔드 네트워크로 감지, 운동 추적, 재식별을 통합한 통합적인 이단계 검출-추적 프레임워크인 Siamese Track-RCNN을 제안한다. 공동 학습과 추론을 통해 효율성을 유지하면서 MOT16(59.8 MOTA)과 MOT17(59.6 MOTA)에서 최신 기술 수준의 성능을 달성한다.

ABSTRACT

Multi-object tracking systems often consist of a combination of a detector, a short term linker, a re-identification feature extractor and a solver that takes the output from these separate components and makes a final prediction. Differently, this work aims to unify all these in a single tracking system. Towards this, we propose Siamese Track-RCNN, a two stage detect-and-track framework which consists of three functional branches: (1) the detection branch localizes object instances; (2) the Siamese-based track branch estimates the object motion and (3) the object re-identification branch re-activates the previously terminated tracks when they re-emerge. We test our tracking system on two popular datasets of the MOTChallenge. Siamese Track-RCNN achieves significantly higher results than the state-of-the-art, while also being much more efficient, thanks to its unified design.

연구 동기 및 목표

  • 감지, 추적, 재식별을 위한 별도의 계산 비용이 큰 컴포onent에 의존하는 기존 다중 객체 추적(MOT) 시스템의 한계를 해결한다.
  • Tracktor의 단점인 외관 모델링 부재 및 일시적 가림 또는 소실 후 재식별 불가능성 문제를 해결한다.
  • 감지, 운동 추정, 재식별을 공동 최적화하여 정확도와 효율성을 향상시키는 통합형 엔드 투 엔드 학습 가능한 프레임워크를 설계한다.
  • 재등장 시 종료된 트랙을 재활성화하는 시amese 기반 재식별 브랜치를 통합하여 장기 추적의 강건성을 향상시킨다.
  • 낮은 계산 비용과 메모리 사용량을 유지하면서도 표준 MOT 벤치마크에서 뛰어난 성능을 입증한다.

제안 방법

  • 공통 백본을 공유하는 세 가지 공유 브랜치 구성(감지, 시amese 기반 추적, 재식별)을 가진 이단계 프레임워크를 제안한다.
  • 트랙 브랜치에서 시amese 네트워크를 사용하여 기준 프레임과 검색 영역의 특징을 비교하여 물체의 운동과 가시성을 추정한다.
  • 기존 트랙과 후보 감지 결과 간 임베딩 차이를 계산하도록 재식별 브랜치를 학습시켜 장기 트랙 재활성화를 가능하게 한다.
  • 임베딩 차이와 운동 특징에 대한 학습된 임계값을 사용하는 온라인 솔버를 구현하여 종료된 트랙을 재활성화할지 여부를 결정한다.
  • 운동 변화에 대한 강건성을 향상시키기 위해 가변적인 시간 창 δ(최적화 시 30 프레임, 약 1초) 내에서 프레임 쌍을 샘플링하여 훈련 데이터를 증강한다.
  • 모든 세 브랜치를 공동 최적화하는 엔드 투 엔드 학습을 적용하여 특징 공유와 작업 간 상호 개선을 가능하게 한다.

실험 결과

연구 질문

  • RQ1통합적인 딥 러닝 프레임워크가 감지, 운동 추적, 재식별을 공동 최적화하여 모듈러한 다중 컴포넌트 MOT 시스템을 능가할 수 있는가?
  • RQ2단일 프레임 회귀 기반 기준 대비 시amese 기반 추적 브랜치를 통합할 경우 운동 추정 성능과 가림에 대한 강건성이 어떻게 향상되는가?
  • RQ3재식별 임베딩에 대한 히우리스틱 임계값 대비 학습 가능한 트랙 재활성화 메커니즘이 장기 추적 성능에 얼마나 기여하는가?
  • RQ4시amese 추적 및 재식별 브랜치를 훈련하기 위한 최적의 시간 샘플링 범위 δ는 무엇인가? 다양성과 일관성의 균형을 고려할 때 최적의 범위는?
  • RQ5감지, 추적, 재식별 브랜치의 공동 학습이 전체 추적 정확도와 효율성에 어떤 영향을 미치는가?

주요 결과

  • Siamese Track-RCNN는 MOT16과 MOT17 벤치마크에서 각각 59.8 MOTA와 59.6 MOTA로 최신 기술 수준의 성능을 달성하여 이전 최고 기록을 초월한다.
  • JTA 데이터셋에서의 추론 분석 결과, 모든 구성 요소가 포함된 전체 모델은 39.7 AP50와 18.5 AP75를 기록하며, 추론 변형된 버전보다 유의미하게 뛰어난 성능을 보였다.
  • 트랙 브랜치에 시amese 아키텍처를 사용할 경우 비-시amese 대안 대비 4.5 AP50 포인트 향상(29.3 대비 24.8)을 기록하여 설계 선택의 타당성을 입증한다.
  • 최적의 훈련 샘플링 범위 δ = 30 프레임(~1초)이 가장 높은 성능(39.7 AP50)을 내며, 더 작은(δ=8) 또는 더 큰(δ=45) 범위는 운동 변화의 제한 또는 과잉으로 인해 성능이 저하됨을 확인했다.
  • 트랙 재활성화를 위한 경량 온라인 분류기 학습이 단순 임계값 설정 대비 AP50를 8.9 포인트 향상시켜 학습된 의사결정의 가치를 입증한다.
  • 오프라인 버전의 트랙 재활성화 모델은 추가로 1.6 AP50 향상으로 성능을 향상시켜 미래 프레임에 대한 액세스가 장기 일관성 향상에 기여할 수 있음을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.