[논문 리뷰] Multiple Object Tracking by Flowing and Fusing
이 논문은 흐름 기반 운동 추정과 제안 통합을 통해 다중 객체 추적을 위한 엔드 투 엔드 딥 러닝 프레임워크인 Flow-Fuse-Tracker(FFT)를 제안한다. 이는 두 가지 신규 모듈인 FlowTracker와 FuseTracker를 통해 개별 대상의 운동과 연관성을 동시에 학습한다. FlowTracker는 픽셀 수준의 광학 흐름에서 유한한 대상 운동을 추론하고, FuseTracker는 FlowTracker의 제안과 프레임 단위 객체 검출기의 결과를 융합한다. FFT는 온라인 추적 성능에서 최신 기준을 달성하여 MOT16 및 MOT17에서 각각 56.5 MOTA를 기록하며, 이는 이전의 온라인 및 오프라인 방법을 모두 초월한다.
Most of Multiple Object Tracking (MOT) approaches compute individual target features for two subtasks: estimating target-wise motions and conducting pair-wise Re-Identification (Re-ID). Because of the indefinite number of targets among video frames, both subtasks are very difficult to scale up efficiently in end-to-end Deep Neural Networks (DNNs). In this paper, we design an end-to-end DNN tracking approach, Flow-Fuse-Tracker (FFT), that addresses the above issues with two efficient techniques: target flowing and target fusing. Specifically, in target flowing, a FlowTracker DNN module learns the indefinite number of target-wise motions jointly from pixel-level optical flows. In target fusing, a FuseTracker DNN module refines and fuses targets proposed by FlowTracker and frame-wise object detection, instead of trusting either of the two inaccurate sources of target proposal. Because FlowTracker can explore complex target-wise motion patterns and FuseTracker can refine and fuse targets from FlowTracker and detectors, our approach can achieve the state-of-the-art results on several MOT benchmarks. As an online MOT approach, FFT produced the top MOTA of 46.3 on the 2DMOT15, 56.5 on the MOT16, and 56.5 on the MOT17 tracking benchmarks, surpassing all the online and offline methods in existing publications.
연구 동기 및 목표
- 영상 프레임 간에 변화하는 수의 대상으로 인해 엔드 투 엔드 딥 러닝을 통한 다중 객체 추적의 확장성 및 효율성 문제를 해결하기 위해.
- 쌍별 Re-ID 비교에 대한 높은 비용을 제거하기 위해 통합된 프레임워크 내에서 운동과 연관성을 함께 학습하기 위해.
- FlowTracker(운동 기반)와 객체 검출기(검출 기반)의 예측을 융합하여 하나의 정확도가 떨어지는 소스에 대한 의존도를 줄임으로써 추적의 견고성을 향상시키기 위해.
- 반복적 또는 히ュ리스틱 연관 단계 없이도 높은 정확도를 달성하는 엔드 투 엔드 온라인 MOT 시스템을 설계하기 위해.
제안 방법
- FlowTracker는 딥 네트워크를 사용하여 픽셀 수준의 광학 흐름에서 대상별 운동을 동시에 추정함으로써 변수 수의 대상에 대해 확장 가능한 운동 모델링을 가능하게 한다.
- FuseTracker는 딥 네트워크를 활용하여 FlowTracker와 프레임 단위 객체 검출기의 객체 제안을 정제하고 융합함으로써 어느 한 소스에만 의존하지 않도록 한다.
- 전체 시스템은 세 가지 손실 함수를 통해 엔드 투 엔드로 훈련된다: 운동 및 제안 정제를 위한 두 개의 회귀 손실, 객체 존재 여부를 위한 분류 손실.
- 프레임 쌍을 처리하고 직접적으로 대상 간 연관성을 출력함으로써 별도의 허긴거 알고리즘 기반 매칭이 필요 없도록 한다.
- 추론 중 백트래킹을 사용하여 임시로 가려진 또는 일시적인 객체의 추적을 향상시키기 위해 시간적 맥락을 연장한다.
- 아키텍처는 모듈식이며 일반적이므로 향상된 광학 흐름 네트워크와 현대적인 객체 검출기와의 통합이 가능하다.
실험 결과
연구 질문
- RQ1쌍별 Re-ID에 의존하지 않고도 엔드 투 엔드 딥 러닝 프레임워크가 운동 추정과 대상 연관성을 동시에 학습시킬 수 있는가?
- RQ2광학 흐름을 입력으로 사용할 때, 유한하지 않은 수의 대상에 대해 운동 계산을 어떻게 효율적으로 스케일링할 수 있는가?
- RQ3운동 기반과 검출 기반 제안의 융합이 추적의 견고성과 정확도에 얼마나 기여하는가?
- RQ4단일 통합 네트워크가 히ュ리스틱 후처리 없이 온라인 다중 객체 추적에서 최신 기준 성능을 달성할 수 있는가?
주요 결과
- FFT는 MOT16 및 MOT17 벤치마크에서 각각 56.5 MOTA를 기록하여 온라인 추적 성능에서 새로운 최고 기록을 달성하였으며, 기존의 온라인 및 오프라인 방법을 모두 능가한다.
- 2DMOT15에서 FFT는 MOTA 46.3을 기록하여 다양한 데이터셋에 대한 강력한 일반화 능력을 보여준다.
- 절단 분석 결과, FuseTracker를 제거할 경우 MOTA가 6.4 포인트 감소함으로써 FuseTracker가 제안 정제 및 융합에 핵심적인 역할을 한다는 것이 입증된다.
- FlowTracker를 제거할 경우 MOTA가 0.7 포인트 감소함으로써 광학 흐름에서 정확한 운동 모델링에 기여한다는 것이 확인된다.
- 30 프레임의 백트래킹을 적용하면 MOTA는 56.5로 향상되고 IDF1은 51.0으로 상승하여 더 긴 시간적 맥락이 가려진 또는 노이즈가 많은 객체의 추적에 도움이 된다는 것을 시사한다.
- 저조도 또는 작은 객체 크기에서 성능이 저하되며, 가시성이 0.8를 초과하고 높이가 150 픽셀를 초과할 경우 추적 정확도가 크게 향상된다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.