[논문 리뷰] Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?
본 논문은 로컬라이즈된 3D BEV 추론과 다양한 단기 지평 궤적 예측을 통해 장기 MOT를 크게 향상시킬 수 있으며, 긴 차폐 상황에서의 연관 탐색의 조합 수를 줄인다고 주장한다.
Recent developments in monocular multi-object tracking have been very successful in tracking visible objects and bridging short occlusion gaps, mainly relying on data-driven appearance models. While we have significantly advanced short-term tracking performance, bridging longer occlusion gaps remains elusive: state-of-the-art object trackers only bridge less than 10% of occlusions longer than three seconds. We suggest that the missing key is reasoning about future trajectories over a longer time horizon. Intuitively, the longer the occlusion gap, the larger the search space for possible associations. In this paper, we show that even a small yet diverse set of trajectory predictions for moving agents will significantly reduce this search space and thus improve long-term tracking robustness. Our experiments suggest that the crucial components of our approach are reasoning in a bird's-eye view space and generating a small yet diverse set of forecasts while accounting for their localization uncertainty. This way, we can advance state-of-the-art trackers on the MOTChallenge dataset and significantly improve their long-term tracking performance. This paper's source code and experimental data are available at https://github.com/dendorferpatrick/QuoVadis.
연구 동기 및 목표
- 모노큘러 MOT에서 긴 차폐를 연결하기 위한 궤적 예측의 역할을 동기 부여하고 분석한다.
- 학습된 호모그래피를 통한 BEV 로컬라이제이션이 예측 기반 추적을 효과적으로 가능하게 하는지를 조사한다.
- 장기 추적에 가장 이익이 되는 예측 설계 패턴(확률성, 사회적 상호작용, 다모드성)을 식별한다.
- 제안된 프레임워크를 합성 및 실제 MOT 데이터셋에서 평가하고 MOT17/MOT20에서의 향상을 입증한다.
제안 방법
- 단안 깊이와 지면 평면 분할로부터 추정된 시퀀스 전 영역 데이터 기반 호모그래피를 사용하여 이미지 공간 검출을 BEV로 변환한다.
- 불완료 트랙을 BEV에서 궤적 예측 네트워크로 예측하고, 불확실성 처리를 통해 여러 개의 그럴듯한 미래 궤적(k 샘플)을 출력한다.
- BEV 거리(L2, IoU)와 appearance 유사성을 게이팅 임계값과 함께 결합하는 이분 분할 최적화를 통해 예측치를 새로운 검출과 일치시킨다.
- 시야 가시성 제약 및 장면 기하를 이용하여 예측 수명을 제한하고 가능성이 낮은 가지를 가지치아 긴꼬리 오류 연관을 방지한다.
- forecasting 문헌의 설계 패턴(확률성, 사회적 상호작용, 다모드성)을 탐구하여 추적 성능에 미치는 영향을 평가한다.
실험 결과
연구 질문
- RQ1BEV에서 미래 궤적에 대한 추론이 모노큘러 MOT의 긴 차폐 구간에 대한 탐색 공간을 유의하게 줄이는가?
- RQ2데이터 주도 BEV 호모그래피가 픽셀 공간이나 GT 기반 BEV에 비해 궤적 예측과 장기 추적 성능에 어떤 영향을 미치는가?
- RQ3장기 차폐에서 어떤 예측 설계 패턴(확률성, 사회적 맥락, 다모드성)이 최상의 추적 성능을 보여주는가?
- RQ4예측 기반 가지치기가 MOTChallenge 데이터셋(MOT17/MOT20)에서 최첨단 MOT 방법의 단기 정확도를 해치지 않으면서 성능 향상을 가져올 수 있는가?
주요 결과
- 소수의 다양하고 BEV 중심의 궤적 예측 세트가 긴 차폐에 대한 탐색 공간을 크게 줄이고 장기 추적의 견고성을 향상시킨다.
- 데이터 주도 BEV 로컬라이제이션이 단일 학습된 호모그래피를 가진 경우 GT에 근접한 성능을 달성하고, 긴 차폐에서 픽셀 공간 예측보다 우수하다.
- 적은 샘플의 MG-GAN 다모드 예측이 BEV에서 긴 차폐에 대해 선형 모델을 능가하고 긴 차폐 ID 손실을 감소시킨다.
- 외관 및 IoU 인식 매칭 전략과 예측을 통합하면 연관 재현율과 정밀도 간의 최적의 트레이드오프를 얻는다.
- 이 방법은 정지된 MOT17/MOT20 시퀀스의 여러 기본 MOT 모델에서 HOTA, AssA, IDSW를 일관되게 개선한다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.