Skip to main content
QUICK REVIEW

[論文レビュー] Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?

Patrick Dendorfer, Vladimir Yugay|arXiv (Cornell University)|Oct 14, 2022
Video Surveillance and Tracking Methods被引用数 22
ひとこと要約

本論文は、局所的な3D BEV 推論と多様な短期軌道予測によって長期MOTを大幅に改善でき、長い遮蔽時のアソシエーションの組合せ探索を削減することを主張している。

ABSTRACT

Recent developments in monocular multi-object tracking have been very successful in tracking visible objects and bridging short occlusion gaps, mainly relying on data-driven appearance models. While we have significantly advanced short-term tracking performance, bridging longer occlusion gaps remains elusive: state-of-the-art object trackers only bridge less than 10% of occlusions longer than three seconds. We suggest that the missing key is reasoning about future trajectories over a longer time horizon. Intuitively, the longer the occlusion gap, the larger the search space for possible associations. In this paper, we show that even a small yet diverse set of trajectory predictions for moving agents will significantly reduce this search space and thus improve long-term tracking robustness. Our experiments suggest that the crucial components of our approach are reasoning in a bird's-eye view space and generating a small yet diverse set of forecasts while accounting for their localization uncertainty. This way, we can advance state-of-the-art trackers on the MOTChallenge dataset and significantly improve their long-term tracking performance. This paper's source code and experimental data are available at https://github.com/dendorferpatrick/QuoVadis.

研究の動機と目的

  • 単眼MOTにおける長い遮蔽を橋渡しするための軌道予測の役割を動機づけ、分析する。
  • 学習されたホモグラフィを介した BEV ローカライズが、効果的な予測ベースの追跡をいかに可能にするかを調査する。
  • 長期追跡に最も有益な予測設計パターン(確率性、社会的相互作用、多モード性)を特定する。
  • 提案されたフレームワークを合成および実データの MOT データセットで評価し、MOT17/MOT20 での改善を実証する。

提案手法

  • モノラル depth と地面平面セグメンテーションから推定されたシーケンス全体のデータ駆動ホモグラフィを用いて、画像空間の検出を BEV に変換する。
  • 不明トラックを BEV で予測する軌道予測ネットワークを用いて、複数の妥当な未来軌道(k サンプル)と不確実性の取り扱いを出力する。
  • 予測と新しい検出を、BEV距離(L2、IoU)と外観類似性を組み合わせ、ゲーティング閾値を用いる双方向最適化で対応付ける。
  • 可視性制約とシーン幾何を用いて予測の寿命を制限し、長尾の誤ったアソシエーションを避けるために、可能性の低い分岐を剪定する。
  • 予測文献の設計パターン(確率性、社会的相互作用、多モード性)を探究し、それらが追跡性能に与える影響を評価する。

実験結果

リサーチクエスチョン

  • RQ1BEV での将来軌道の推論は、単眼 MOT における長い遮蔽の探索空間を著しく削減するか?
  • RQ2データ駆動型 BEV ホモグラフィが、ピクセル空間または GT ベースの BEV と比較して、軌道予測と長期追跡性能にどのような影響を与えるか?
  • RQ3長い遮蔽で最も良い追跡性能を発揮する予測設計パターン(確率性、社会的文脈、多モード性)はどれか?
  • RQ4予測ベースの剪定は、短期精度を犠牲にすることなく MOTChallenge データセット(MOT17/MOT20)における最先端の MOT 手法を改善できるか?

主な発見

  • BEV に焦点を当てた小規模で多様な軌道予測の集合は、長い遮蔽の探索空間を大幅に削減し、長期追跡の頑健性を向上させる。
  • データ駆動 BEV ローカライズは GT に近い性能を達成し、長い遮蔽に対するピクセル空間予測を上回る。
  • 少数サンプルの MG-GAN を用いた多モード予測は、BEV での長い遮蔽に対して線形モデルを上回り、長遮蔽時のID損失を減らす。
  • 外観と IoU を考慮したマッチング戦略と予測を統合すると、アソシエーションのリコールと精度の最良のトレードオフを得られる。
  • このアプローチは、static MOT17/MOT20 のシーケンスで、複数のベースライン MOT モデルにわたり、HOTA、AssA、IDSW を一貫して向上させる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。