QUICK REVIEW

[논문 리뷰] Deep Affinity Network for Multiple Object Tracking

Shijie Sun, Naveed Akhtar|arXiv (Cornell University)|2018. 10. 28.

Video Surveillance and Tracking Methods참고 문헌 95인용 수 23

한 줄 요약

이 논문은 온라인 다중 객체 추적을 위한 엔드 투 엔드 딥 러닝 프레임워크인 딥 어피니티 네트워크(DAN)를 제안한다. 이 네트워크는 비연속 프레임 간의 객체 외관과 교차 프레임 어피니티를 동시에 학습한다. 계층적 특징을 모델링하고 비연속 프레임 간의 모든 객체 쌍을 철저히 순열화함으로써, DAN은 MOT15, MOT17, UA-DETRAC에서 최신 기술 수준의 성능을 달성한다. MOTA 및 IDF1와 같은 다양한 지표에서 기존 방법을 능가하며, 6.3 FPS의 실시간 추론 성능도 유지한다.

ABSTRACT

Multiple Object Tracking (MOT) plays an important role in solving many fundamental problems in video analysis in computer vision. Most MOT methods employ two steps: Object Detection and Data Association. The first step detects objects of interest in every frame of a video, and the second establishes correspondence between the detected objects in different frames to obtain their tracks. Object detection has made tremendous progress in the last few years due to deep learning. However, data association for tracking still relies on hand crafted constraints such as appearance, motion, spatial proximity, grouping etc. to compute affinities between the objects in different frames. In this paper, we harness the power of deep learning for data association in tracking by jointly modelling object appearances and their affinities between different frames in an end-to-end fashion. The proposed Deep Affinity Network (DAN) learns compact; yet comprehensive features of pre-detected objects at several levels of abstraction, and performs exhaustive pairing permutations of those features in any two frames to infer object affinities. DAN also accounts for multiple objects appearing and disappearing between video frames. We exploit the resulting efficient affinity computations to associate objects in the current frame deep into the previous frames for reliable on-line tracking. Our technique is evaluated on popular multiple object tracking challenges MOT15, MOT17 and UA-DETRAC. Comprehensive benchmarking under twelve evaluation metrics demonstrates that our approach is among the best performing techniques on the leader board for these challenges. The open source implementation of our work is available at https://github.com/shijieS/SST.git.

연구 동기 및 목표

다중 객체 추적의 데이터 연동에서 수작업으로 설계된 특징의 한계를 극복하기 위해.
비연속 영상 프레임 간 객체 간의 딥 러닝 기반 어피니티 계산을 가능하게 하기 위해.
엔드 투 엔드 학습 가능한 방식으로 객체 외관과 어피니티를 동시에 모델링하기 위해.
어피니티 추정 모듈에서 시간적 연장 기법을 통해 프레임 간 객체의 진입 및 퇴출을 고려하기 위해.
기존 방법보다 향상된 정확도를 확보하면서도 강력하고 실시간으로 작동하는 온라인 추적을 달성하기 위해.

제안 방법

네트워크는 VGG를 영감으로 삼은 두 개의 스트림으로 구성된 가중치 공유 컨볼루션 아키텍처를 사용하여 두 영상 프레임에서 사전 검출된 객체의 계층적 특징을 추출한다.
1×1 컨볼루션 레이어를 통해 아홉 개의 선택된 레이어에서 특징을 압축하여 520차원의 벡터로 표현한다.
두 프레임의 특징 벡터를 철저히 순열화하여 3차원 텐서 Ψ_{t−n,t} ∈ ℝ^{1040×Nₘ×Nₘ}로 인코딩함으로써 모든 가능한 객체 쌍의 조합을 모델링한다.
다섯 레이어의 컨볼루션 네트워크가 텐서 Ψ를 행렬 M ∈ ℝ^{Nₘ×Nₘ}로 매핑하여 프레임 쌍 내의 객체 간 쌍별 어피니티를 표현한다.
객체 외관 변화나 사라짐을 처리하기 위해 네트워크는 M에 추가 행과 열을 추가하여 M₁ 및 M₂를 구성함으로써 정방향 및 역방향 시간적 추론을 가능하게 한다.
M₁ 및 M₂에 대해 행 및 열 방향의 소프트맥스 연산을 수행하여 어피니티 행렬 A₁, A₂ 및 그들을 압축한 형태인 Â₁, Â₂를 생성하며, 이는 새로운 손실 함수에 의해 학습을 감독하는 데 사용된다.

실험 결과

연구 질문

RQ1딥 러닝이 다중 객체 추적의 데이터 연동에서 수작업 특징을 효과적으로 대체할 수 있는가?
RQ2비연속 프레임 간 객체 간 어피니티를 모델링하면서도 객체의 진입 및 퇴출을 어떻게 고려할 수 있는가?
RQ3계층적 특징 추상화와 특징 압축은 추적 정확도 및 효율성에 어떤 영향을 미치는가?
RQ4엔드 투 엔드 학습 가능한 어피니티 네트워크가 운동 및 외관 특징을 조합한 전통적인 복합 모델을 능가할 수 있는가?
RQ5실시간 추적 환경에서 추적 객체 수가 증가함에 따라 제안된 아키텍처는 어떻게 확장되는가?

주요 결과

제안된 딥 어피니티 네트워크(DAN)는 MOT15, MOT17, UA-DETRAC의 세 벤치마크 모두에서 최고의 다중 객체 추적 정확도(MOTA)를 달성했다.
MOT17에서 DAN은 120 에포크 시점에 MOTA 53.5% 및 IDF1 62.3%를 기록하여 모든 변형 및 베이스라인 방법을 능가했다.
점진적 특징 압축을 적용한 DAN 변형(DAN-Replace)은 120 에포크 시점에 손실 0.111을 기록했으며, 손실 함수를 수정한 DAN-Mean는 60.7% IDF1을 달성했다.
엔드 투 엔드 방식으로 학습된 DAN 모델은 120 에포크 시점에 학습 손실 0.043에 도달하여 다른 변형보다 더 빠른 수렴을 보였다.
시스템은 평균 6.3 프레임/초의 추론 속도를 확보했으며, 객체 수가 4배 증가(20에서 80으로)해도 런타임이 1.2배만 증가했다.
제거 실험 결과, 특징 압축과 확장 서브넷이 핵심임을 확인했다: 확장 기능이 제거된 DAN-Curtail은 MOTA 45.2%로 떨어졌고, 압축 기능을 제거한 DAN-Remove는 MOTA 51.7%로 낮은 성능을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.