[논문 리뷰] DEFT: Detection Embeddings for Tracking
DEFT가 탐지 백본 내에서 탐지 임베딩을 공동으로 학습하여 온라인 다중 객체 추적을 수행하고, appearance 기반 매칭 헤드와 모션 모델을 사용하여 프레임 간 객체를 강건하게 추적합니다. 특히 가림 및 큰 프레임 간 변位 하에서; 2D 벤치마크에서 강력한 결과를 달성하고 nuScenes에서 단안(모노큘러) 3D 추적을 크게 향상시킵니다.
Most modern multiple object tracking (MOT) systems follow the tracking-by-detection paradigm, consisting of a detector followed by a method for associating detections into tracks. There is a long history in tracking of combining motion and appearance features to provide robustness to occlusions and other challenges, but typically this comes with the trade-off of a more complex and slower implementation. Recent successes on popular 2D tracking benchmarks indicate that top-scores can be achieved using a state-of-the-art detector and relatively simple associations relying on single-frame spatial offsets -- notably outperforming contemporary methods that leverage learned appearance features to help re-identify lost tracks. In this paper, we propose an efficient joint detection and tracking model named DEFT, or "Detection Embeddings for Tracking." Our approach relies on an appearance-based object matching network jointly-learned with an underlying object detection network. An LSTM is also added to capture motion constraints. DEFT has comparable accuracy and speed to the top methods on 2D online tracking leaderboards while having significant advantages in robustness when applied to more challenging tracking data. DEFT raises the bar on the nuScenes monocular 3D tracking challenge, more than doubling the performance of the previous top method. Code is publicly available.
연구 동기 및 목표
- 간단하지만 강건한 연결 메커니즘으로 추적-탐지를 동기화한다.
- 임베딩 기반 매칭을 위해 탐지 특징을 재사용하는 공동 탐지-추적 네트워크를 개발한다.
- 연결 과정에서 가능한 물체 궤적을 제약하기 위해 모션 모델을 도입한다.
- Occlusion과 큰 프레임 간 변위에 대한 강건성을 입증하기 위해 2D 및 3D 추적 벤치마크에서 DEFT를 평가한다.
제안 방법
- 각 탐지 객체에 대해 다수의 탐지 백본 특징 맵에서 appearance 임베딩을 추출한다.
- 임베딩이 탐지 및 프레임 간 연관성을 모두 최적화하도록 공유 탐지 및 매칭 네트워크를 학습한다.
- 현재 탐지와 트랙 임베딩 간의 쌍별 유사도를 1x1 컨볼루션 네트워크를 통해 계산하는 매칭 헤드를 사용한다.
- 최근 프레임의 트랙 임베딩 메모리를 유지하여 장거리 연관성 및 가림 처리를 가능하게 한다.
- 연관의 타당성을 제약하고 부적합 매칭을 걸러내기 위해 LSTM 기반 모션 예측 모듈을 적용한다.
- Hungarian 알고리즘을 사용한 온라인 데이터 연관을 수행하며, 새로 등장하거나 사라지는 객체를 처리하기 위한 비매칭 점수를 포함한다.
실험 결과
연구 질문
- RQ1탐지 백본 임베딩을 온라인 MOT에서 appearance 기반 데이터 연관에 효과적으로 재활용할 수 있는가?
- RQ2공동 탐지-추적 학습이 분리된 단계에 비해 탐지 품질과 추적 강건성을 모두 개선하는가?
- RQ3Occlusion 및 큰 프레임 간 변위와 같은 어려운 시나리오에서 학습된 모션 모델(LSTM)은 임베딩 기반 매칭과 어떻게 상호 작용하는가?
주요 결과
- DEFT의 공동 학습은 MOT 및 KITTI 벤치마크에서 2D 추적 성능을 경쟁력 있게 만든다.
- DEFT는 가림 및 큰 프레임 간 변위에 대한 강건성을 크게 향상시키며, 특히 challenging 데이터(nuScenes)에서 이전 방법을 능가한다.
- 학습된 탐지 임베딩은 간단한 트래커와 비교해도 효율성을 유지하면서 프레임 간 ID 연관에 강한 신호를 제공한다.
- LSTM 모션 모델은 특히 더 어려운 시퀀스에서 추가 이점을 제공하며 이 맥락에서 칼만 필터(Kalman-filter) 유사 방식보다 더 나은 성능을 보일 수 있다.
- 벤치마크 전반에 걸쳐 탐지와 매칭 간 피처 공유가 탐지와 연관을 별도로 다루는 방법보다 우수하다는 것을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.