QUICK REVIEW

[논문 리뷰] MOT20: A benchmark for multi object tracking in crowded scenes

Patrick Dendorfer, Hamid Rezatofighi|arXiv (Cornell University)|2020. 03. 19.

Video Surveillance and Tracking Methods참고 문헌 16인용 수 510

한 줄 요약

MOT20은 극도로 혼잡한 보행자 시퀀스 8개를 도입하여 MOTChallenge를 확장하고, 극도로 혼잡한 환경에서 트래커를 스트레스 테스트하기 위한 표준화된 주석, 공개 탐지 및 평가 프로토콜을 제공합니다.

ABSTRACT

Standardized benchmarks are crucial for the majority of computer vision applications. Although leaderboards and ranking tables should not be over-claimed, benchmarks often provide the most objective measure of performance and are therefore important guides for research. The benchmark for Multiple Object Tracking, MOTChallenge, was launched with the goal to establish a standardized evaluation of multiple object tracking methods. The challenge focuses on multiple people tracking, since pedestrians are well studied in the tracking community, and precise tracking and detection has high practical relevance. Since the first release, MOT15, MOT16, and MOT17 have tremendously contributed to the community by introducing a clean dataset and precise framework to benchmark multi-object trackers. In this paper, we present our MOT20benchmark, consisting of 8 new sequences depicting very crowded challenging scenes. The benchmark was presented first at the 4thBMTT MOT Challenge Workshop at the Computer Vision and Pattern Recognition Conference (CVPR) 2019, and gives to chance to evaluate state-of-the-art methods for multiple object tracking when handling extremely crowded scenarios.

연구 동기 및 목표

혼잡한 환경에서 다중 객체 추적을 위한 도전적이고 표준화된 벤치마크를 제공한다.
일반화와 강건성을 시험하기 위해 이전 MOTChallenge 릴리스를 더 높은 보행자 밀도로 확장한다.
공정한 트래커 비교를 가능하게 하는 세심한 주석, 공개 탐지, 일관된 평가 프레임워크를 제공한다.

제안 방법

이동하는 보행자에 초점을 맞춘 대상 클래스 및 주석 규칙을 정의하고, 평가에서 산만한 요소를 제외한다.
실내/실외, 주간/야간 조건에 걸쳐 프레임당 최대 246명의 보행자로 구성된 8개의 고밀도 시퀀스를 선별한다.
학습용 ground-truth 주석이 포함된 학습/테스트 분할을 제공하고, 추적 평가를 위한 공개 탐지를 제공한다.
탐지 및 주석에 표준화된 데이터 형식(CSV)을 사용하고, 제출용으로 시퀀스당 ZIP를 제공한다.
포괄적 평가를 위해 CLEAR 지표와 추적 품질 지표(MOTA, MOTP, MT/PT/ML, ID 스위치, 단편화)를 채택한다.
MOT20 학습 데이터로 학습된 Faster R-CNN(ResNet101) 탐지를 공용 베이스라인으로 제시한다.

실험 결과

연구 질문

RQ1최첨단 트래커가 극도로 혼잡한 군중 환경에서 어떻게 성능을 내는가?
RQ2검출기와 트래커가 학습 중 보지 못한 시나리오와 조건에서도 일반화되는가?
RQ3전통적 MOT 지표(MOTA, MOTP)가 밀집한 군중에서 추적 품질 지표(MT/PT/ML, ID 스위치)와 어떤 관계가 있는가?
RQ4공개 탐지와 비공개 탐지의 사용이 트래커 평가에 미치는 영향은 무엇인가?
RQ5가려짐 및 고밀도 시나리오에 대해 추적 방법은 얼마나 견고한가?

주요 결과

MOT20 데이터셋은 3개의 장면에서 8개의 시퀀스를 포함하며 프레임당 최대 246명의 보행자 밀 densities를 가진다.
학습 데이터로 학습된 공개 Faster R-CNN 탐지가 추적 평가의 베이스라인으로 제공되었다.
학습 시퀀스는 총 1,134,614 상자를, 테스트 시퀀스는 프레임 전체에서 517,426 상자를 생성한다.
보고된 MOT 점수는 시퀀스 간 가변성을 보이며 예: MOT20-01에서 MOT20-05까지 AP가 0.63–0.82 범위이고 MT/ML 변화가 나타내며 혼잡성의 도전을 반영한다.
시퀀스당 탐지 수는 약 12k에서 381k까지 크게 다양하며 최소/최대 높이는 다양한 스케일을 나타낸다.
8개 시퀀스에 걸쳐, 탐지기 기반 베이스라인은 다양한 AP(0.38–0.82) 및 MOTA/MOTP 값을 달성하여 혼잡한 환경의 도전을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.