QUICK REVIEW

[論文レビュー] Joint Detection and Multi-Object Tracking with Graph Neural Networks

Yongxin Wang, Xinshuo Weng|arXiv (Cornell University)|Jun 23, 2020

Video Surveillance and Tracking Methods参考文献 91被引用数 37

ひとこと要約

本論文は、空間的・時間的相互作用をモデル化することで、オブジェクト検出とデータアソシエーションを同時に最適化するグラフニューラルネットワーク（GNN）を用いた共同マルチオブジェクトトラッキング（MOT）フレームワークを提案する。GNNベースの特徴学習フレームワーク内で外観および運動特徴を統合することで、エンドツーエンド微分可能な学習により、MOTチャレンジデータセットで最先端の性能を達成し、段階的なアプローチを上回る。

ABSTRACT

Object detection and data association are critical components in multi-object tracking (MOT) systems. Despite the fact that these two components are highly dependent on each other, one popular trend in MOT is to perform detection and data association as separate modules, processed in a cascaded order. Due to this cascaded process, the resulting MOT system can only perform forward inference and cannot back-propagate error through the entire pipeline and correct them. This leads to sub-optimal performance over the total pipeline. To address this issue, recent work jointly optimizes detection and data association and forms an integrated MOT approach, which has been shown to improve performance in both detection and tracking. In this work, we propose a new approach for joint MOT based on Graph Neural Networks (GNNs). The key idea of our approach is that GNNs can explicitly model complex interactions between multiple objects in both the spatial and temporal domains, which is essential for learning discriminative features for detection and data association. We also leverage the fact that motion features are useful for MOT when used together with appearance features. So our proposed joint MOT approach also incorporates appearance and motion features within our graph-based feature learning framework, leading to better feature learning for MOT. Through extensive experiments on the MOT challenge dataset, we show that our proposed method achieves state-of-the-art performance on both object detection and MOT.

研究の動機と目的

段階的な検出とトラッキングパイプラインではモジュール間で誤差のバックプロパゲーションができないため、性能が最適でない問題を解決すること。
検出とデータアソシエーションを共同で最適化することで、マルチオブジェクトトラッキングのエンドツーエンド学習を可能にすること。
グラフニューラルネットワークを用いて、空間的・時間的次元での複数オブジェクト間の複雑な相互作用をモデル化すること。
統一されたグラフベースのフレームワーク内に外観および運動特徴を統合することで、特徴学習を向上させること。
検出とアソシエーションの共同最適化により、MOTチャレンジデータセットで最先端の性能を達成すること。

提案手法

本手法は、空間的および時間的次元におけるオブジェクト間の相互作用を明示的にモデル化するためにグラフニューラルネットワーク（GNN）を採用する。
オブジェクトはグラフのノードとして表現され、エッジは検出間の空間的近接性と時間的整合性を符号化する。
外観および運動特徴はノードに埋め込まれ、GNNのメッセージパッシングメカニズムを通じて更新される。
GNNフレームワークにより、エラーのバックプロパゲーションがパイプライン全体にまで及ぶため、検出とデータアソシエーションの共同最適化が可能になる。
検出とアソシエーションの目的関数を組み合わせた微分可能な損失関数を用いて、エンドツーエンドでモデルを学習する。
フレームワークは、グラフ畳み込みを通じて動的に最適化される外観および運動の手がかりを統合した共同特徴学習をサポートする。

実験結果

リサーチクエスチョン

RQ1GNNベースのフレームワークは、マルチオブジェクトトラッキングにおける検出とデータアソシエーションを共同で最適化し、全体の性能を向上させることができるか？
RQ2オブジェクト間の空間的・時間的相互作用は、共同MOTにおける特徴学習にどのように影響を与えるか？
RQ3グラフベースの学習フレームワーク内に外観および運動特徴を統合することで、トラッキング精度にどのような影響を与えるか？
RQ4検出とアソシエーションモジュールを通過する誤差のバックプロパゲーションを含むエンドツーエンド学習は、段階的パイプラインよりも優れた性能をもたらすか？
RQ5提案されたGNNベースの手法は、標準的なMOTベンチマークで最先端の結果を達成できるか？

主な発見

提案されたGNNベースの共同MOTフレームワークは、MOTチャレンジデータセットで最先端の性能を達成した。
グラフフレームワーク内に外観および運動特徴を統合することで、より判別力のある特徴学習が実現した。
検出とアソシエーションモジュールを通過するバックプロパゲーションを含むエンドツーエンド学習により、段階的アプローチと比較してパイプライン最適化が向上した。
GNNを用いた空間的・時間的相互作用のモデル化により、データアソシエーションの正確性と検出品質が向上した。
本手法は、検出およびマルチオブジェクトトラッキングの両方の指標で、既存の最先端手法を上回った。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。