QUICK REVIEW

[論文レビュー] Exploit the Connectivity: Multi-Object Tracking with TrackletNet

Gaoang Wang, Yizhou Wang|arXiv (Cornell University)|Nov 18, 2018

Video Surveillance and Tracking Methods参考文献 31被引用数 24

ひとこと要約

本稿では、トラックレットを頂点として用い、複数のスケールのトラックレットネット（TrackletNet）を用いて外見的特徴と時間的特徴を統合することで、トラックレット間の接続性を測定することにより、トラッキングをグラフクラスタリング問題としてモデル化する新規なマルチオブジェクトトラッキング手法、TrackletNet Tracker（TNT）を提案する。エピポーラ幾何をトラックレット生成に組み込み、統一されたCNNベースの類似度測定を活用することで、TNTはMOT16およびMOT17ベンチマークで最先端の性能を達成し、遮蔽、カメラの動き、ノイズの多い外見的特徴に対して高い耐性を示す。

ABSTRACT

Multi-object tracking (MOT) is an important and practical task related to both surveillance systems and moving camera applications, such as autonomous driving and robotic vision. However, due to unreliable detection, occlusion and fast camera motion, tracked targets can be easily lost, which makes MOT very challenging. Most recent works treat tracking as a re-identification (Re-ID) task, but how to combine appearance and temporal features is still not well addressed. In this paper, we propose an innovative and effective tracking method called TrackletNet Tracker (TNT) that combines temporal and appearance information together as a unified framework. First, we define a graph model which treats each tracklet as a vertex. The tracklets are generated by appearance similarity with CNN features and intersection-over-union (IOU) with epipolar constraints to compensate camera movement between adjacent frames. Then, for every pair of two tracklets, the similarity is measured by our designed multi-scale TrackletNet. Afterwards, the tracklets are clustered into groups which represent individual object IDs. Our proposed TNT has the ability to handle most of the challenges in MOT, and achieve promising results on MOT16 and MOT17 benchmark datasets compared with other state-of-the-art methods.

研究の動機と目的

遮蔽、ノイズの多い検出、高速なカメラの動きに起因するマルチオブジェクトトラッキングの課題に対処すること。
外見的特徴と時間的特徴を統合したフレームワークによりトラッキング性能を向上させること。
個々の検出ではなくトラックレットをグラフの頂点としてモデル化することにより、計算複雑度を低減し耐性を高めること。
時間的連続性のモデル化を通じて、外見的特徴のノイズや過学習に対して耐性を持つ手法を開発すること。

提案手法

IOUとCNNベースの外見的特徴を用いて連続するフレーム間の検出を関連付けることでトラックレットを生成し、カメラの動き補正にエピポーラ幾何を適用する。
各トラックレットを頂点とし、エッジがトラックレット間の接続性を表すグラフモデルを構築する。
マルチスケールのTrackletNetが、時間的連続性の学習に使用されるCNNアーキテクチャにより、軌道特徴と外見的特徴を統合してトラックレット間の類似度を測定する。
TrackletNetから得られる接続スコアがグラフのエッジ重みとなり、トラックレットを個々のオブジェクトの軌道にクラスタリング可能となる。
グラフ分割を用いて同一IDのトラックレットをグループ化し、トラッキングをクラスタリング問題として解く。
追加のRe-IDデータを用いずにMOTデータセット上でエンドツーエンドに学習することで、時間領域の畳み込みにより過学習を低減する。

実験結果

リサーチクエスチョン

RQ1トラックレットを頂点として用いるグラフベースのトラッキングフレームワークは、長時間の遮蔽やノイズの多い検出に対処する点で、検出ベースの手法を上回る性能を発揮できるか？
RQ2大きなカメラの動き下でも、エピポーラ幾何はトラックレット生成をどの程度改善できるか？
RQ3統一されたCNNベースの類似度測定（TrackletNet）は、バタチャーリャ距離のような従来の特徴距離測定法よりもトラッキングの耐性を向上させられるか？
RQ4時間的連続性のモデル化は、ノイズや損傷を受ける外見的特徴への感受性をどの程度低減できるか？

主な発見

TNTはMOT16およびMOT17ベンチマークで最先端の性能を達成し、MOTAおよびIDF1スコアで既存手法を上回った。
エピポーラ幾何を組み込むことで、トラックレット生成における誤検出率（FNR）が顕著に低下し、MOT17-13では2.7%の改善が得られた。これはカメラの動きに対する耐性が向上したことを示している。
MOT17-10では2.4%、MOT17-13では3.4%の誤発見率（FDR）を達成し、トラックレットの関連付けにおいて高い正確性を示した。
ガウスノイズ（σ = 0.2）下でもTNTはIDF1を34.0を維持するが、ベースラインは20.6に低下し、外見的特徴の破損に対する優れた耐性を示した。
定性的な結果では、MOT17-08で最大38フレームにわたる完全な遮蔽を経ても歩行者のトラッキングに成功した。
MOT17-01およびMOT17-06のシーケンスから、移動するカメラや密集した歩行者同士の相互作用といった多様な状況においても、モデルの汎化性能が優れていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。