QUICK REVIEW

[논문 리뷰] DeepMOT: A Differentiable Framework for Training Multiple Object Trackers

Yihong Xu, Yutong Ban|arXiv (Cornell University)|2019. 06. 15.

Video Surveillance and Tracking Methods참고 문헌 27인용 수 29

한 줄 요약

이 논문은 Deep Hungarian Net(DHN) 모듈을 사용하여 MOTA와 MOTP에 대한 미분 가능 프록시를 도입함으로써, 딥 다중객체 트래커의 엔드 투 엔드 훈련을 가능하게 하는 미분 가능한 프레임워크 DeepMOT을 제안한다. 이 방법은 트래커 성능을 향상시키고 MOTChallenge 벤치마크에서 새로운 최고 성능을 수립한다.

ABSTRACT

The recent trend in vision-based multi-object tracking (MOT) is heading towards leveraging the representational power of deep learning to jointly learn to detect and track objects. However, existing methods train only certain sub-modules using loss functions that often do not correlate with established tracking evaluation measures such as Multi-Object Tracking Accuracy (MOTA) and Precision (MOTP). As these measures are not differentiable, the choice of appropriate loss functions for end-to-end training of multi-object tracking methods is still an open research problem. In this paper, we bridge this gap by proposing a differentiable proxy of MOTA and MOTP, which we combine in a loss function suitable for end-to-end training of deep multi-object trackers. As a key ingredient, we propose a Deep Hungarian Net (DHN) module that approximates the Hungarian matching algorithm. DHN allows estimating the correspondence between object tracks and ground truth objects to compute differentiable proxies of MOTA and MOTP, which are in turn used to optimize deep trackers directly. We experimentally demonstrate that the proposed differentiable framework improves the performance of existing multi-object trackers, and we establish a new state of the art on the MOTChallenge benchmark. Our code is publicly available from this https URL.

연구 동기 및 목표

MOTA와 MOTP와 같은 표준 트래킹 평가 지표와 관련성이 없는 손실 함수로 다중객체 트래커를 훈련시키는 문제를 해결하기 위해.
비미분 가능한 트래킹 지표와 딥러닝 최적화 간 격차를 해소하기 위해 MOTA와 MOTP에 대한 미분 가능 프록시를 생성하기 위해.
실제 트래킹 성능에 기반한 손실 함수를 사용하여 딥 다중객체 트래커의 엔드 투 엔드 훈련을 가능하게 하기 위해.
트랙과 실제 객체 간의 대응 관계 추정을 위한 허긴거 매칭 알고리즘의 미분 가능 근사치를 개발하기 위해.

제안 방법

딥 허긴거 넷(DHN)이라는 학습 가능한 모듈을 사용하여 허긴거 매칭 알고리즘을 근사화함으로써 MOTA와 MOTP에 대한 미분 가능 프록시를 제안한다.
DHN 모듈을 사용하여 트랙과 실제 객체 간의 대응 관계를 미분 가능한 방식으로 추정함으로써 매칭 과정을 통한 기울기 흐름을 가능하게 한다.
미분 가능한 MOTA와 MOTP 프록시를 하나의 손실 함수로 통합하여 딥 다중객체 트래커의 엔드 투 엔드 최적화를 수행한다.
기존 트래커 아키텍처에 미분 가능한 손실을 통합하여 검출 및 트래킹 컴포넌트의 공동 최적화를 가능하게 한다.
훈련 중에 미분 가능한 IoU 계산을 사용하여 미분 가능한 트래킹 손실을 지원한다.
백프로파게이션을 사용하여 전체 트래커를 엔드 투 엔드로 훈련시키며, 기울기가 DHN 및 트래킹 손실 컴포넌트를 통해 흐르도록 한다.

실험 결과

연구 질문

RQ1표준 다중객체 트래킹 지표인 MOTA와 MOTP를 미분 가능하게 만들 수 있는가? 이는 딥 트래커의 엔드 투 엔드 훈련을 가능하게 할 수 있는가?
RQ2허긴거 매칭 알고리즘을 어떻게 미분 가능한 방식으로 근사화할 수 있는가? 이는 다중객체 트래킹에서 기울기 기반 최적화를 지원할 수 있는가?
RQ3MOTA와 MOTP의 미분 가능 프록시를 손실 함수로 사용할 경우, 표준 벤치마크에서 트래커 성능이 향상되는가?
RQ4제안된 프레임워크는 아키텍처의 대대적인 개선 없이도 기존의 딥 다중객체 트래킹 아키텍처에 통합될 수 있는가?

주요 결과

제안된 미분 가능한 프레임워크인 DeepMOT는 표준 평가 지표에 부합하는 손실 함수를 사용하여 다중객체 트래커의 엔드 투 엔드 훈련을 가능하게 한다.
딥 허긴거 넷(DHN) 모듈은 트랙과 진짜 객체 간 대응 추정 과정을 미분 가능한 방식으로 성공적으로 근사화하여 기울기 흐름을 가능하게 한다.
이 방법은 MOTChallenge 벤치마크에서 기존 다중객체 트래커의 성능을 향상시켜 새로운 최고 성능을 달성한다.
미분 가능한 MOTA와 MOTP 프록시는 표준 검출 및 트래킹 손실 조합보다 더 효과적인 최적화를 이끈다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.