QUICK REVIEW

[논문 리뷰] Towards Real-Time Multi-Object Tracking

Zhongdao Wang, Liang Zheng|arXiv (Cornell University)|2019. 09. 27.

Video Surveillance and Tracking Methods참고 문헌 45인용 수 32

한 줄 요약

이 논문은 단일 네트워크에서 객체 검출과 외관 임베딩을 동시에 학습하는 단일 스텝 딥러닝 프레임워크인 Joint Detection and Embedding (JDE)를 제안한다. 이로 인해 MOT-16에서 64.4% MOTA를 기록하며 최신 별도의 검출 및 임베딩(SDE) 방법과 유사한 성능을 달성하면서도 22–40 FPS로 거의 실시간 다중 객체 추적을 구현한다.

ABSTRACT

Modern multiple object tracking (MOT) systems usually follow the \emph{tracking-by-detection} paradigm. It has 1) a detection model for target localization and 2) an appearance embedding model for data association. Having the two models separately executed might lead to efficiency problems, as the running time is simply a sum of the two steps without investigating potential structures that can be shared between them. Existing research efforts on real-time MOT usually focus on the association step, so they are essentially real-time association methods but not real-time MOT system. In this paper, we propose an MOT system that allows target detection and appearance embedding to be learned in a shared model. Specifically, we incorporate the appearance embedding model into a single-shot detector, such that the model can simultaneously output detections and the corresponding embeddings. We further propose a simple and fast association method that works in conjunction with the joint model. In both components the computation cost is significantly reduced compared with former MOT systems, resulting in a neat and fast baseline for future follow-ups on real-time MOT algorithm design. To our knowledge, this work reports the first (near) real-time MOT system, with a running speed of 22 to 40 FPS depending on the input resolution. Meanwhile, its tracking accuracy is comparable to the state-of-the-art trackers embodying separate detection and embedding (SDE) learning ($64.4\%$ MOTA \vs $66.1\%$ MOTA on MOT-16 challenge). Code and models are available at \url{https://github.com/Zhongdao/Towards-Realtime-MOT}.

연구 동기 및 목표

검출과 외관 임베딩을 별도로 순차적으로 처리하는 기존 다중 객체 추적(MOT) 시스템의 비효율성을 해결하여 높은 추론 지연을 유발하는 문제를 해결한다.
두 단계 검출기(예: Faster R-CNN)의 속도 제약과 여전히 진정한 실시간 성능을 달성하지 못하는 실시간 연관 방법의 한계를 극복한다.
검출 및 임베딩 작업 간 저수준 특징을 공유하는 통합형, 엔드 투 엔드 트레이너블 프레임워크를 개발하여 중복 계산을 줄인다.
효율적인 아키텍처 설계, 다중 작업 학습, 동적 손실 가중치 기반의 새로운 실시간 MOT 기준을 설정한다.
미래 연구를 안내하기 위해 학습 데이터, 네트워크 아키텍처, 손실 함수, 최적화 및 평가 지표 등 공동 학습 구성 요소를 종합적으로 분석한다.

제안 방법

경량 임베딩 헤드를 특징 피라미드 네트워크(FPN)에 추가하여 YOLO 기반 단일 스텝 검출기 내부에 외관 임베딩 학습을 직접 통합함으로써, 동시에 바운딩 박스와 임베딩을 출력할 수 있도록 한다.
앵커 분류, 박스 회귀, 임베딩 학습의 세 가지 목표를 가진 다중 작업 학습 문제로 학습 과정을 공식화한다.
분류, 회귀, 거리 학습의 이질적 손실을 동적으로 균형 조절하기 위해 작업별 불확실성 기반 기법을 사용하여 학습 안정성과 성능을 향상시킨다.
공동 임베딩을 활용해 효율적인 데이터 연관을 수행하는 빠르고 가벼운 연관 알고리즘을 설계하여 추적 파이프라인의 계산 오버헤드를 줄인다.
보행자 검출 및 인물 검색을 위한 여섯 개의 공개 데이터셋을 결합하여 대규모 통합 다중 레이블 데이터셋을 구축하고, 바운딩 박스 및 부분 신원 레이블을 포함한다.
검출 및 임베딩 브랜치 간 공유된 특징을 재사용하고 불필요한 특징 추출을 제거하여 추론 속도를 최적화한다.

실험 결과

연구 질문

RQ1단일 스텝 네트워크에서 검출과 외관 임베딩을 공동으로 학습하는 것이 실시간 추론 성능를 유지는 동시에 경쟁력 있는 추적 정확도를 달성할 수 있는가?
RQ2공동 학습 모델의 성능은 MOTA, IDF1, ID 스위치 수 측면에서 별도의 검출 및 임베딩(SDE) 방법과 비교해 어떻게 되는가?
RQ3불확실성 기반 손실 가중치 기반의 다중 작업 학습이 공동 검출 및 임베딩 특징의 품질에 어떤 영향을 미치는가?
RQ4다양한 입력 해상도와 고밀도 보행자 간 오버랩이 발생하는 어려운 상황에서 제안된 공동 프레임워크의 성능은 어떠한가?
RQ5JDE에서 발생하는 ID 스위치의 대부분은 검출 오류에서 기인하는가, 아니면 약한 임베딩 품질에서 기인하는가?

주요 결과

제안된 JDE 시스템은 1088×608 해상도에서 22.2 FPS, 864×408 해상도에서 최대 30.3 FPS를 기록하여 경쟁력 있는 정확도를 확보한 최초의(거의) 실시간 MOT 시스템이다.
JDE는 MOT-16 벤치마크에서 64.4% MOTA를 기록하였으며, 이는 더 빠른 속도를 기록함에도 불구하고 최신 SDE 방법(66.1% MOTA)과 유사한 성능이다.
JDE의 IDF1 점수는 일부 SDE 방법보다 낮지만, 분석 결과 이는 주로 혼잡한 장면에서의 잘못된 검출 박스에서 기인하며, 약한 임베딩 때문이 아니다.
공동 임베딩을 별도로 학습한 re-ID 모델로 대체해도 IDF1 점수나 ID 스위치 수에 향상이 없으며, 이는 추적 불안정성의 근본 원인이 검출 오류임을 확인한다.
검색 성능의 시각화 결과, JDE를 통해 학습된 조밀한 임베딩은 검출 특징 맵만으로는 달성할 수 없는 더 나은 공간 대응을 제공함을 확인하였다.
JDE의 런타임 상한선은 추정된 시간 및 보고되지 않은 임베딩 추론 시간을 고려하더라도 기존 방법 대비 최소 2–3배 이상 빠르다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.