QUICK REVIEW

[論文レビュー] Deep Affinity Network for Multiple Object Tracking

Shijie Sun, Naveed Akhtar|arXiv (Cornell University)|Oct 28, 2018

Video Surveillance and Tracking Methods参考文献 95被引用数 23

ひとこと要約

本稿では、オンライン複数オブジェクト追跡のためのエンドツーエンドのディーブラーニングフレームワークとして、深層アフィニティネットワーク（DAN）を提案する。DANは、非連続フレーム間のオブジェクトの外観と相互関係（アフィニティ）を同時に学習する。階層的特徴をモデル化し、非連続フレーム間のオブジェクトペアを網羅的に並べ替えることで、MOT15、MOT17、UA-DETRACで最先端の性能を達成。MOTA や IDF1 といった複数の指標で既存手法を上回り、6.3 FPS のリアルタイム推論を維持している。

ABSTRACT

Multiple Object Tracking (MOT) plays an important role in solving many fundamental problems in video analysis in computer vision. Most MOT methods employ two steps: Object Detection and Data Association. The first step detects objects of interest in every frame of a video, and the second establishes correspondence between the detected objects in different frames to obtain their tracks. Object detection has made tremendous progress in the last few years due to deep learning. However, data association for tracking still relies on hand crafted constraints such as appearance, motion, spatial proximity, grouping etc. to compute affinities between the objects in different frames. In this paper, we harness the power of deep learning for data association in tracking by jointly modelling object appearances and their affinities between different frames in an end-to-end fashion. The proposed Deep Affinity Network (DAN) learns compact; yet comprehensive features of pre-detected objects at several levels of abstraction, and performs exhaustive pairing permutations of those features in any two frames to infer object affinities. DAN also accounts for multiple objects appearing and disappearing between video frames. We exploit the resulting efficient affinity computations to associate objects in the current frame deep into the previous frames for reliable on-line tracking. Our technique is evaluated on popular multiple object tracking challenges MOT15, MOT17 and UA-DETRAC. Comprehensive benchmarking under twelve evaluation metrics demonstrates that our approach is among the best performing techniques on the leader board for these challenges. The open source implementation of our work is available at https://github.com/shijieS/SST.git.

研究の動機と目的

複数オブジェクト追跡におけるデータアソシエーションにおいて、手作業で設計された特徴量の限界を克服すること。
非連続フレーム間のオブジェクト間のディープラーニングベースのアフィニティ計算を可能にすること。
エンドツーエンドでトレーニング可能な形で、オブジェクトの外観とアフィニティを同時にモデル化すること。
アフィニティ推定モジュールにおける時間的拡張を用いて、フレーム間でのオブジェクトの登場・消失を考慮すること。
既存手法よりも優れた正確性を実現しつつ、ロバストでリアルタイムのオンライン追跡を達成すること。

提案手法

ネットワークは、VGGをインspiredとした2ストリームで重み共有の畳み込みアーキテクチャを用い、2つの動画フレーム内の事前に検出されたオブジェクトから階層的特徴を抽出する。
1×1畳み込み層を用いて、9つの選択された層からの特徴を520次元のベクトルに圧縮し、コンactな表現を実現する。
2つのフレームからの特徴ベクトルの網羅的並べ替えが、3次元テンソル Ψ_{t−n,t} ∈ ℝ^{1040×Nₘ×Nₘ} に符号化され、すべての可能なオブジェクトペアの関係をモデル化する。
5層の畳み込みネットワークにより、テンソル Ψ が、フレームペア内のオブジェクト間のペアワイズアフィニティを表す行列 M ∈ ℝ^{Nₘ×Nₘ} にマッピングされる。
オブジェクトの外観変化や消滅に対応するため、ネットワークは M に余分な行と列を追加して M₁ と M₂ を形成し、前向きおよび後向きの時間的推論を可能にする。
M₁ と M₂ に対して行および列方向のソフトマックス処理を施し、アフィニティ行列 A₁、A₂ とそのトリムド版 Â₁、 Â₂ を得る。これらは、訓練を監督するための新規損失関数に使用される。

実験結果

リサーチクエスチョン

RQ1ディープラーニングを、複数オブジェクト追跡のデータアソシエーションにおける手作業特徴量の代替として効果的に活用できるか？
RQ2オブジェクトの登場・消失を考慮しつつ、非連続フレーム間のオブジェクト間アフィニティをディープネットワークでどのようにモデル化できるか？
RQ3階層的特徴抽象化と特徴圧縮が、追跡の正確性と効率性に与える影響は何か？
RQ4エンドツーエンドでトレーニング可能なアフィニティネットワークは、運動と外観特徴を組み合わせた従来のコンポジットモデルを上回れるか？
RQ5本提案アーキテクチャは、リアルタイム追跡シナリオにおいて、追跡対象オブジェクト数の増加に伴い、どのようにスケーリングするか？

主な発見

提案された深層アフィニティネットワーク（DAN）は、MOT15、MOT17、UA-DETRAC の3つのベンチマークで、最高の複数オブジェクト追跡精度（MOTA）を達成した。
MOT17では、120エポックで MOTA 53.5%、IDF1 62.3% を達成し、すべてのバリエーションおよびベースライン手法を上回った。
段階的特徴圧縮を採用したDANバージョン（DAN-Replace）は、120エポックで損失0.111を達成した。一方、損失関数を変更したDAN-Meanは、IDF1 60.7% を達成した。
エンドツーエンドでトレーニングされたDANモデルは、120エポックで訓練損失0.043に達し、他のバリエーションよりも高速な収束を示した。
平均推論速度は6.3フレーム/秒を達成し、オブジェクト数が4倍（20から80に）増加しても実行時間は1.2倍にしか増加しなかった。
アブレーションスタディの結果、特徴圧縮と拡張サブネットワークが極めて重要であることが確認された。拡張機能を備えないDAN-Curtail（無し）はMOTAが45.2%に低下し、特徴圧縮を削除したDAN-RemoveはMOTAが51.7%と劣悪な性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。