QUICK REVIEW

[論文レビュー] Multiple Object Tracking by Flowing and Fusing

Jimuyang Zhang, Sanping Zhou|arXiv (Cornell University)|Jan 30, 2020

Video Surveillance and Tracking Methods参考文献 67被引用数 29

ひとこと要約

本稿では、2つの新規モジュールである FlowTracker（ピクセルレベルの光流から不定なターゲットの運動を推定）と FuseTracker（FlowTracker の予測とフレーム単位のオブジェクト検出器の予測を統合）を用いて、ターゲットごとの運動と関連付けを同時に学習する、エンドツーエンドの深層学習フレームワークである Flow-Fuse-Tracker (FFT) を提案する。FFT は、オンライン性能において最先端の水準に達し、MOT16 および MOT17 で 56.5 MOTA を達成し、従来のオンラインおよびオフライン手法をすべて上回った。

ABSTRACT

Most of Multiple Object Tracking (MOT) approaches compute individual target features for two subtasks: estimating target-wise motions and conducting pair-wise Re-Identification (Re-ID). Because of the indefinite number of targets among video frames, both subtasks are very difficult to scale up efficiently in end-to-end Deep Neural Networks (DNNs). In this paper, we design an end-to-end DNN tracking approach, Flow-Fuse-Tracker (FFT), that addresses the above issues with two efficient techniques: target flowing and target fusing. Specifically, in target flowing, a FlowTracker DNN module learns the indefinite number of target-wise motions jointly from pixel-level optical flows. In target fusing, a FuseTracker DNN module refines and fuses targets proposed by FlowTracker and frame-wise object detection, instead of trusting either of the two inaccurate sources of target proposal. Because FlowTracker can explore complex target-wise motion patterns and FuseTracker can refine and fuse targets from FlowTracker and detectors, our approach can achieve the state-of-the-art results on several MOT benchmarks. As an online MOT approach, FFT produced the top MOTA of 46.3 on the 2DMOT15, 56.5 on the MOT16, and 56.5 on the MOT17 tracking benchmarks, surpassing all the online and offline methods in existing publications.

研究の動機と目的

動画フレーム間でターゲット数が不定であるため、エンドツーエンドの深層学習による複数オブジェクト追跡におけるスケーラビリティと効率性の課題に対処すること。
一対一の Re-ID 比較にかかるコストを回避するため、統一されたフレームワーク内で運動と関連付けを同時に学習すること。
FlowTracker（運動に基づく）とオブジェクト検出器（検出に基づく）の予測を統合することで、どちらかのソースに過度に依存しない追跡のロバスト性を向上させること。
反復的またはヒューリスティックな関連付け手順を必要としない、エンドツーエンドで動作するオンライン MOT システムを設計し、高い精度を達成すること。

提案手法

FlowTracker は、DNN を用いてピクセルレベルの光流からターゲットごとの運動を同時に推定し、変動するターゲット数に応じたスケーラブルな運動モデル化を可能にする。
FuseTracker は、DNN を用いて FlowTracker とフレーム単位のオブジェクト検出器からのオブジェクト予測を精緻化・統合し、両方のソースに過度に依存しないようにする。
システム全体は、2つの回帰損失（運動と予測精緻化用）と1つの分類損失（オブジェクト存在用）の合計3つの損失関数を用いてエンドツーエンドで訓練される。
フレームペアを入力として処理し、直接的にターゲットの関連付けを出力することで、別個のハンガリアン法ベースのマッチング処理の必要性を排除する。
推論時にバックトラッキングを用いることで、遮蔽や一時的な欠失を伴うオブジェクトの追跡を向上させ、時間的文脈を拡張する。
アーキテクチャはモジュール型かつ汎用的であり、改善された光流ネットワークや最新のオブジェクト検出器との統合が可能である。

実験結果

リサーチクエスチョン

RQ1一対一の Re-ID に依存せずに、エンドツーエンドの深層学習フレームワークが運動推定とターゲット関連付けを同時に学習できるか？
RQ2光流を入力として用いる場合、不定な数のターゲットにわたる運動計算をどのように効率的にスケーリングできるか？
RQ3運動に基づく予測と検出に基づく予測を統合することで、追跡のロバスト性と精度がどの程度向上するか？
RQ41つの統一ネットワークが、ヒューリスティックな後処理を一切用いずに、オンライン複数オブジェクト追跡で最先端の性能を達成できるか？

主な発見

FFT は、MOT16 および MOT17 ベンチマークで、すべての既存のオンラインおよびオフライン手法を上回る、新しいオンライン MOTA 56.5 を達成した。
2DMOT15 では MOTA 46.3 を達成し、多様なデータセットにわたる強力な汎化能力を示した。
アブレーションスタディの結果、FuseTracker を削除すると MOTA が 6.4 ポints 減少し、その予測精緻化と統合における重要性が裏付けられた。
FlowTracker を削除すると MOTA が 0.7 ポイント低下し、光流からの正確な運動モデル化におけるその貢献が確認された。
30 フレームのバックトラッキングを適用すると、MOTA は 56.5 に、IDF1 は 51.0 に向上し、より長い時間的文脈が遮蔽やノイズの多いオブジェクトの追跡を向上させることを示した。
物体の可視性が低いか、物体サイズが小さい場合、性能が低下する傾向にあり、可視性が 0.8 を超え、高さが 150 ピクセルを超えると追跡精度が顕著に向上した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。