QUICK REVIEW

[논문 리뷰] Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

Qi Chu, Wanli Ouyang|arXiv (Cornell University)|2017. 08. 09.

Video Surveillance and Tracking Methods참고 문헌 47인용 수 54

한 줄 요약

이 논문은 STAM을 제안한다, CNN 기반의 동적 온라인 MOT 프레임워크로 다수의 타깃 간 CNN 특징을 공유하고 공간-시간 주의 메커니즘을 사용해 폐색 및 타깃 간 상호 작용에 대한 강건성을 향상시킨다. ROI-Pooling, 타깃별 CNN 분기, 온라인 업데이트를 위한 가시성 기반 주의 모듈을 사용한다.

ABSTRACT

In this paper, we propose a CNN-based framework for online MOT. This framework utilizes the merits of single object trackers in adapting appearance models and searching for target in the next frame. Simply applying single object tracker for MOT will encounter the problem in computational efficiency and drifted results caused by occlusion. Our framework achieves computational efficiency by sharing features and using ROI-Pooling to obtain individual features for each target. Some online learned target-specific CNN layers are used for adapting the appearance model for each target. In the framework, we introduce spatial-temporal attention mechanism (STAM) to handle the drift caused by occlusion and interaction among targets. The visibility map of the target is learned and used for inferring the spatial attention map. The spatial attention map is then applied to weight the features. Besides, the occlusion status can be estimated from the visibility map, which controls the online updating process via weighted loss on training samples with different occlusion statuses in different frames. It can be considered as temporal attention mechanism. The proposed algorithm achieves 34.3% and 46.0% in MOTA on challenging MOT15 and MOT16 benchmark dataset respectively.

연구 동기 및 목표

CNN 기반 단일 객체 추적기를 통해 온라인 다중 객체 추적(MOT)을 동기화하고 다음 프레임에서 외관 적응과 타깃 탐색을 강화한다.
타깃 간 CNN 특징을 공유하고 ROI-Pooling을 사용하여 per-target 특징을 효율적으로 추출해 계산 비용을 낮춘다.
온라인 업데이트 동안 폐색 및 타깃 간 상호 작용으로 인한 드리프트를 완화하기 위해 공간-시간 주의를 도입한다.
학습된 가시성 맵과 시계열 주의를 통해 업데이트되는 온라인의 타깃별 CNN 분기가 폐색 인식 가능하도록 한다.
MOT15 및 MOT16 벤치마크에서 온라인 및 오프라인 트래커와 대등한 성능을 평가한다.

제안 방법

공유 CNN 계층과 타깃별 온라인 업데이트 분기가 단일 객체 추적으로 작용하는 동적 CNN 기반 MOT 프레임워크.
ROI-Pooling은 공유 프레임 수준 특징 맵에서 타깃 특징을 추출하여 다중 타깃 추적의 효율성을 높인다.
공간 주의는 학습된 가시성 맵에서 도출되어 특징 추출 시 가려지지 않은 영역을 강조한다.
일시적 주의는 폐색 및 중첩 신호를 바탕으로 타깃별 분류기의 온라인 업데이트를 가중한다.
간단한 운동 모델(상수 속도 및 가우시안 노이즈)은 탐색 영역을 안내하고 속도와 공분산을 업데이트한다.
상태 추정은 분류기 점수와 IoU를 이용한 탐지와 결합하여 타깃 상태를 정제한다.

실험 결과

연구 질문

RQ1온라인 CNN 기반 단일 객체 추적기를 MOT의 여러 타깃에 효율적으로 공유하여 계산을 줄일 수 있는가?
RQ2공간 및 시간 주의가 폐색 및 타깃 간 상호 작용으로 인한 드리프트를 완화하도록 온라인으로 학습될 수 있는가?
RQ3가시성 기반 공간 주의 및 시간 업데이트 체계를 도입하면 기존 방법에 비해 MOT 정확도와 동일성 보존이 개선되는가?
RQ4온라인 업데이트 타깃별 CNN 분기가 추적의 견고성 및 속도에 미치는 영향은 무엇인가?
RQ5제안된 STAM 프레임워크가 MOT15 및 MOT16 벤치마크에서 온라인 및 오프라인 방법에 비해 어떤 성능을 보이는가?

주요 결과

Mode	Method	MOTA	MOTP	MT	ML	FP	FN	IDS	프래그먼트
Offline	STAM (MOT15)	34.3%	70.5%	11.4%	43.4%	5154	34848	348	1463
Online	STAM (MOT16)	46.0%	74.9%	14.6%	43.6%	6895	91117	473	1422

STAM은 MOT15에서 34.3% MOTA, MOT16에서 46.0% MOTA(온라인)로 평가되어 온라인 트래커 중에서도 경쟁력 있는 성능을 보이며 일부 오프라인 방법과 동등한 수준에 도달한다.
본 방법은 IDS를 감소시키고 폐색 및 타깃 간 상호 작용 하에서도 견고한 추적을 유지한다.
공유 CNN 특징과 ROI-Pooling을 사용하면 각 타깃마다 별도의 트래커를 naively 실행하는 것보다 계산 효율이 크게 향상된다.
학습된 가시성 맵에 기반한 공간 주의와 온라인 업데이트의 가중치를 위한 시간 주의 both contribute to 성능 향상 over baseline.
STAM은 MOT15 및 MOT16 벤치마크에서 여러 온라인 트래커에 비해 더 우수한 MOTA를 보이며, MOT16에서 일부 오프라인 접근법과의 MOTA 동등성/경쟁력을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.