QUICK REVIEW

[논문 리뷰] Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?

Patrick Dendorfer, Vladimir Yugay|arXiv (Cornell University)|2022. 10. 14.

Video Surveillance and Tracking Methods인용 수 22

한 줄 요약

본 논문은 로컬라이즈된 3D BEV 추론과 다양한 단기 지평 궤적 예측을 통해 장기 MOT를 크게 향상시킬 수 있으며, 긴 차폐 상황에서의 연관 탐색의 조합 수를 줄인다고 주장한다.

ABSTRACT

Recent developments in monocular multi-object tracking have been very successful in tracking visible objects and bridging short occlusion gaps, mainly relying on data-driven appearance models. While we have significantly advanced short-term tracking performance, bridging longer occlusion gaps remains elusive: state-of-the-art object trackers only bridge less than 10% of occlusions longer than three seconds. We suggest that the missing key is reasoning about future trajectories over a longer time horizon. Intuitively, the longer the occlusion gap, the larger the search space for possible associations. In this paper, we show that even a small yet diverse set of trajectory predictions for moving agents will significantly reduce this search space and thus improve long-term tracking robustness. Our experiments suggest that the crucial components of our approach are reasoning in a bird's-eye view space and generating a small yet diverse set of forecasts while accounting for their localization uncertainty. This way, we can advance state-of-the-art trackers on the MOTChallenge dataset and significantly improve their long-term tracking performance. This paper's source code and experimental data are available at https://github.com/dendorferpatrick/QuoVadis.

연구 동기 및 목표

모노큘러 MOT에서 긴 차폐를 연결하기 위한 궤적 예측의 역할을 동기 부여하고 분석한다.
학습된 호모그래피를 통한 BEV 로컬라이제이션이 예측 기반 추적을 효과적으로 가능하게 하는지를 조사한다.
장기 추적에 가장 이익이 되는 예측 설계 패턴(확률성, 사회적 상호작용, 다모드성)을 식별한다.
제안된 프레임워크를 합성 및 실제 MOT 데이터셋에서 평가하고 MOT17/MOT20에서의 향상을 입증한다.

제안 방법

단안 깊이와 지면 평면 분할로부터 추정된 시퀀스 전 영역 데이터 기반 호모그래피를 사용하여 이미지 공간 검출을 BEV로 변환한다.
불완료 트랙을 BEV에서 궤적 예측 네트워크로 예측하고, 불확실성 처리를 통해 여러 개의 그럴듯한 미래 궤적(k 샘플)을 출력한다.
BEV 거리(L2, IoU)와 appearance 유사성을 게이팅 임계값과 함께 결합하는 이분 분할 최적화를 통해 예측치를 새로운 검출과 일치시킨다.
시야 가시성 제약 및 장면 기하를 이용하여 예측 수명을 제한하고 가능성이 낮은 가지를 가지치아 긴꼬리 오류 연관을 방지한다.
forecasting 문헌의 설계 패턴(확률성, 사회적 상호작용, 다모드성)을 탐구하여 추적 성능에 미치는 영향을 평가한다.

실험 결과

연구 질문

RQ1BEV에서 미래 궤적에 대한 추론이 모노큘러 MOT의 긴 차폐 구간에 대한 탐색 공간을 유의하게 줄이는가?
RQ2데이터 주도 BEV 호모그래피가 픽셀 공간이나 GT 기반 BEV에 비해 궤적 예측과 장기 추적 성능에 어떤 영향을 미치는가?
RQ3장기 차폐에서 어떤 예측 설계 패턴(확률성, 사회적 맥락, 다모드성)이 최상의 추적 성능을 보여주는가?
RQ4예측 기반 가지치기가 MOTChallenge 데이터셋(MOT17/MOT20)에서 최첨단 MOT 방법의 단기 정확도를 해치지 않으면서 성능 향상을 가져올 수 있는가?

주요 결과

소수의 다양하고 BEV 중심의 궤적 예측 세트가 긴 차폐에 대한 탐색 공간을 크게 줄이고 장기 추적의 견고성을 향상시킨다.
데이터 주도 BEV 로컬라이제이션이 단일 학습된 호모그래피를 가진 경우 GT에 근접한 성능을 달성하고, 긴 차폐에서 픽셀 공간 예측보다 우수하다.
적은 샘플의 MG-GAN 다모드 예측이 BEV에서 긴 차폐에 대해 선형 모델을 능가하고 긴 차폐 ID 손실을 감소시킨다.
외관 및 IoU 인식 매칭 전략과 예측을 통합하면 연관 재현율과 정밀도 간의 최적의 트레이드오프를 얻는다.
이 방법은 정지된 MOT17/MOT20 시퀀스의 여러 기본 MOT 모델에서 HOTA, AssA, IDSW를 일관되게 개선한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.