QUICK REVIEW

[論文レビュー] Online Multi-Object Tracking Using CNN-based Single Object Tracker with Spatial-Temporal Attention Mechanism

Qi Chu, Wanli Ouyang|arXiv (Cornell University)|Aug 9, 2017

Video Surveillance and Tracking Methods参考文献 47被引用数 54

ひとこと要約

この論文は STAM を提案する。動的な CNN ベースのオンライン MOT フレームワークで、ターゲット間で CNN 特徴を共有し、空間-時間注意機構を用いて遮蔽とターゲット間相互作用へのロバスト性を向上させる。ROI-Pooling、ターゲット個別の CNN ブランチ、およびオンライン更新のための可視性ベースのアテンションモジュールを使用。

ABSTRACT

In this paper, we propose a CNN-based framework for online MOT. This framework utilizes the merits of single object trackers in adapting appearance models and searching for target in the next frame. Simply applying single object tracker for MOT will encounter the problem in computational efficiency and drifted results caused by occlusion. Our framework achieves computational efficiency by sharing features and using ROI-Pooling to obtain individual features for each target. Some online learned target-specific CNN layers are used for adapting the appearance model for each target. In the framework, we introduce spatial-temporal attention mechanism (STAM) to handle the drift caused by occlusion and interaction among targets. The visibility map of the target is learned and used for inferring the spatial attention map. The spatial attention map is then applied to weight the features. Besides, the occlusion status can be estimated from the visibility map, which controls the online updating process via weighted loss on training samples with different occlusion statuses in different frames. It can be considered as temporal attention mechanism. The proposed algorithm achieves 34.3% and 46.0% in MOTA on challenging MOT15 and MOT16 benchmark dataset respectively.

研究の動機と目的

CNN ベースのオンライン MOT でオンライン多物体追跡（MOT）を動機づけ、次フレームでの外観適応とターゲット探索を強化。
ターゲット間で CNN 特徴を共有し、ROI-Pooling を用いて各ターゲット特徴を得ることで計算コストを削減。
遮蔽によるドリフトとオンライン更新時のターゲット間相互作用を緩和するため、空間-時間アテンションを導入。
学習可能な可視性マップと時系列アテンションを用いて、遮蔽を考慮したオンライン更新を可能にする。
MOT15 および MOT16 ベンチマークで、最新のオンラインおよびオフラインのトラッカーと比較して評価。

提案手法

共有 CNN レイヤとターゲットごとにオンライン更新されるブランチが単一物体トラッカーとして機能する、動的な CNN ベースの MOT フレームワーク。
ROI-Pooling は共有フレームレベル特徴マップからターゲット特徴を抽出し、効率的なマルチターゲット追跡を実現。
空間アテンションは学習した可視性マップから派生し、特徴抽出時に遮蔽されていない領域を強調。
時系列アテンションは遮蔽と重なりの手掛かりに基づき、オンライン更新時のターゲット特異的分類器を更新する際の正例に対する重みを付与。
単純な運動モデル（一定速度とガウスノイズ）が探索領域を導き、速度と共分散を更新。
状態推定は分類器スコアと IoU による検出を組み合わせてターゲット状態を洗練。

実験結果

リサーチクエスチョン

RQ1オンライン CNN ベースの単一物体トーカーを MOT の複数ターゲット間で効率的に共有して計算を削減できるか？
RQ2遮蔽とターゲット間相互作用によるドリフトを緩和するために、空間的・時刻的アテンションをオンラインで学習できるか？
RQ3可視性ベースの空間アテンションと時系列更新スキームを取り入れることで、ベースライン手法と比べて MOT の精度と同一性保持が改善されるか？
RQ4オンライン更新付きのターゲット特異的 CNN ブランチが追跡の頑健性と速度に与える影響は？
RQ5提案 STAM フレームワークは MOT15 および MOT16 ベンチマークでオンラインおよびオフライン手法と比較してどのように機能するか？

主な発見

モード	手法	MOTA	MOTP	MT	ML	FP	FN	IDS	Frag
Offline	STAM (MOT15)	34.3%	70.5%	11.4%	43.4%	5154	34848	348	1463
Online	STAM (MOT16)	46.0%	74.9%	14.6%	43.6%	6895	91117	473	1422

STAM は MOT15 で 34.3% MOTA、MOT16 で 46.0% MOTA（オンライン）を達成し、オンライントラッカー間で競争力のある性能を示し、いくつかのオフライン手法と同等のパフォーマンスと同等性を示す。
遮蔽とターゲット間相互作用下で、 IDS の削減と堅牢な追跡を維持。
共有 CNN 特徴と ROI-Pooling の使用により、各ターゲットごとに別々のトラッカーを走らせるよりも計算効率が大幅に向上。
学習された可視性マップに基づく空間アテンションと、遮蔽およびオンライン更新時の重み付け更新の時系列アテンションの両方が、ベースラインを上回る性能向上に寄与。
STAM は MOT15 および MOT16 ベンチマークで複数のオンライントラッカーを上回る MOTA を示し、MOT16 では一部のオフライン手法と同等のまたは上回るパフォーマンスを示す。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。