QUICK REVIEW

[논문 리뷰] How To Train Your Deep Multi-Object Tracker

Yihong Xu, Aljoša Ošep|arXiv (Cornell University)|2019. 06. 15.

Video Surveillance and Tracking Methods참고 문헌 69인용 수 24

한 줄 요약

이 논문은 깊이 신경망을 통한 다중 객체 추적기의 엔드 투 엔드 훈련을 위해 MOTA와 MOTP의 미분 가능(proxy)을 도입함으로써, Deep Hungarian Net(DHN)을 통해 훌륭한 할당 알고리즘을 근사함으로써, 미분 가능한 프레임워크를 제안한다. 이 방법은 표준 추적 평가 지표를 직접 최적화함으로써 MOTChallenge 벤치마크에서 최신 기준 성능을 달성한다.

ABSTRACT

The recent trend in vision-based multi-object tracking (MOT) is heading towards leveraging the representational power of deep learning to jointly learn to detect and track objects. However, existing methods train only certain sub-modules using loss functions that often do not correlate with established tracking evaluation measures such as Multi-Object Tracking Accuracy (MOTA) and Precision (MOTP). As these measures are not differentiable, the choice of appropriate loss functions for end-to-end training of multi-object tracking methods is still an open research problem. In this paper, we bridge this gap by proposing a differentiable proxy of MOTA and MOTP, which we combine in a loss function suitable for end-to-end training of deep multi-object trackers. As a key ingredient, we propose a Deep Hungarian Net (DHN) module that approximates the Hungarian matching algorithm. DHN allows estimating the correspondence between object tracks and ground truth objects to compute differentiable proxies of MOTA and MOTP, which are in turn used to optimize deep trackers directly. We experimentally demonstrate that the proposed differentiable framework improves the performance of existing multi-object trackers, and we establish a new state of the art on the MOTChallenge benchmark. Our code is publicly available from https://github.com/yihongXU/deepMOT.

연구 동기 및 목표

MOTA와 MOTP와 같은 표준 평가 지표가 비미분 가능하기 때문에, 딥 다중 객체 추적기의 엔드 투 엔드 훈련에 발생하는 격차를 해소한다.
최적의 데이터 할당에 필수적인 비미분 가능한 헝가리안 알고리즘을 통해 기울기 역전파를 극복한다.
최적의 할당을 근사하는 미분 가능한 모듈을 개발하여 추적 성능과 직접 연관된 지표를 기반으로 추적기 가중치를 기반으로 최적화할 수 있도록 한다.
제안된 손실 함수를 사용한 훈련이 표준 벤치마크에서 추적 성능을 향상시키며, 특히 오소거와 아이덴티티 스위치를 줄이는 데 기여함을 입증한다.

제안 방법

예측값과 진짜값 간의 거리 행렬에서 소프트 할당 행렬을 계산하는 양방향 RNN인 Deep Hungarian Net(DHN)을 통해 헝가리안 알고리즘의 미분 가능 근사를 제안한다.
소프트 할당 행렬과 거리 행렬을 사용하여 MOTA와 MOTP의 미분 가능 프록시를 수립함으로써 추적 성능 지표에서 기울기 계산을 가능하게 한다.
미분 가능한 MOTA와 MOTP 프록시를 통합한 DeepMOT 손실을 기존 추적기인 Tracktor, SiamRPN, GOTURN의 훈련 파이프라인에 통합한다.
기울기 역전파를 통해 추적기를 엔드 투 엔드로 훈련시키며, DeepMOT 손실에서 유도된 기울기가 추적기 가중치를 업데이트하여 추적 정확도를 향상시키고 오류를 줄인다.
DHN에서 시퀀스 기반 GRU 변형인 seq_gru를 사용하여 다양한 행렬 크기에서 할당 정확도와 일반화 능력을 향상시킨다.
기울기 시각화와 할당 정확도 및 지표 상관관계에 대한 분석을 통해 프레임워크의 미분 가능성과 효과성을 검증한다.

실험 결과

연구 질문

RQ1다중 객체 추적의 표준 평가 지표인 MOTA와 MOTP는 엔드 투 엔드 훈련을 가능하게 하기 위해 미분 가능하게 만들 수 있는가?
RQ2비미분 가능한 헝가리안 알고리즘은 어떻게 미분 가능한 방식으로 근사할 수 있으며, 이를 통해 데이터 할당을 통한 기울기 흐름을 가능하게 할 수 있는가?
RQ3MOTA와 MOTP에 직접 기반한 손실 함수로 훈련하면 표준 벤치마크에서 추적 성능이 향상되는가?
RQ4제안된 Deep Hungarian Net(DHN)은 다른 미분 가능한 할당 모듈과 비교해 할당 정확도와 일반화 능력 측면에서 어떻게 성능을 내는가?
RQ5제안된 훈련 프레임워크는 실세계 추적 시나리오에서 오소거와 아이덴티티 스위치를 얼마나 줄일 수 있는가?

주요 결과

제안된 DeepMOT 프레임워크는 MOT15 벤치마크에서 새로운 최고 성능인 MOTA 44.1을 달성하였으며, 원본 Tracktor와 동일한 성능을 유지하면서 평가 지표와의 훈련 일치도를 향상시켰다.
DeepMOT-SiamRPN은 기본 SiamRPN 대비 MOTA +2.3%, MOTP +0.7%, IDF1 +2.0% 향상되었으며, 오소거 수는 2,416건 감소하고 아이덴티티 스위치 수는 143건 감소하였다.
seq_gru 변형을 사용한 Deep Hungarian Net(DHN)은 할당 정확도에서 행 기준 92.71%, 열 기준 92.36%를 기록하였고, 낮은 MA(13.17% 및 12.21%)와 SA(9.70% 및 3.69%)를 기록하여 최적 할당의 강력한 근사를 확인하였다.
기울기 시각화 결과, DeepMOT 손실에서 유도된 음성 기울기가 예측된 바운딩 박스가 해당 진짜값 객체로 향하도록 이끌고 있음을 확인하여, 손실이 추적 정확도 최적화에 효과적임을 검증하였다.
MOT15 데이터셋에서 DeepMOT-Tracktor는 경쟁 가능한 성능를 유지하고 있었으며, MOTP는 +0.3% 향상되었고, 기존 Tracktor 대비 오소거 수가 392건 감소하였다.
프레임워크는 다양한 행렬 크기에서 잘 일반화되지만, 행렬 크기가 커질수록 할당 정확도는 약간 감소하고, 매우 작은 행렬(≤6×6)에서는 성능 저하가 발생하는 경향이 있었으며, 이는 훈련 불균형 때문일 가능성이 높다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.