[論文レビュー] Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?
本論文は、局所的な3D BEV 推論と多様な短期軌道予測によって長期MOTを大幅に改善でき、長い遮蔽時のアソシエーションの組合せ探索を削減することを主張している。
Recent developments in monocular multi-object tracking have been very successful in tracking visible objects and bridging short occlusion gaps, mainly relying on data-driven appearance models. While we have significantly advanced short-term tracking performance, bridging longer occlusion gaps remains elusive: state-of-the-art object trackers only bridge less than 10% of occlusions longer than three seconds. We suggest that the missing key is reasoning about future trajectories over a longer time horizon. Intuitively, the longer the occlusion gap, the larger the search space for possible associations. In this paper, we show that even a small yet diverse set of trajectory predictions for moving agents will significantly reduce this search space and thus improve long-term tracking robustness. Our experiments suggest that the crucial components of our approach are reasoning in a bird's-eye view space and generating a small yet diverse set of forecasts while accounting for their localization uncertainty. This way, we can advance state-of-the-art trackers on the MOTChallenge dataset and significantly improve their long-term tracking performance. This paper's source code and experimental data are available at https://github.com/dendorferpatrick/QuoVadis.
研究の動機と目的
- 単眼MOTにおける長い遮蔽を橋渡しするための軌道予測の役割を動機づけ、分析する。
- 学習されたホモグラフィを介した BEV ローカライズが、効果的な予測ベースの追跡をいかに可能にするかを調査する。
- 長期追跡に最も有益な予測設計パターン(確率性、社会的相互作用、多モード性)を特定する。
- 提案されたフレームワークを合成および実データの MOT データセットで評価し、MOT17/MOT20 での改善を実証する。
提案手法
- モノラル depth と地面平面セグメンテーションから推定されたシーケンス全体のデータ駆動ホモグラフィを用いて、画像空間の検出を BEV に変換する。
- 不明トラックを BEV で予測する軌道予測ネットワークを用いて、複数の妥当な未来軌道(k サンプル)と不確実性の取り扱いを出力する。
- 予測と新しい検出を、BEV距離(L2、IoU)と外観類似性を組み合わせ、ゲーティング閾値を用いる双方向最適化で対応付ける。
- 可視性制約とシーン幾何を用いて予測の寿命を制限し、長尾の誤ったアソシエーションを避けるために、可能性の低い分岐を剪定する。
- 予測文献の設計パターン(確率性、社会的相互作用、多モード性)を探究し、それらが追跡性能に与える影響を評価する。
実験結果
リサーチクエスチョン
- RQ1BEV での将来軌道の推論は、単眼 MOT における長い遮蔽の探索空間を著しく削減するか?
- RQ2データ駆動型 BEV ホモグラフィが、ピクセル空間または GT ベースの BEV と比較して、軌道予測と長期追跡性能にどのような影響を与えるか?
- RQ3長い遮蔽で最も良い追跡性能を発揮する予測設計パターン(確率性、社会的文脈、多モード性)はどれか?
- RQ4予測ベースの剪定は、短期精度を犠牲にすることなく MOTChallenge データセット(MOT17/MOT20)における最先端の MOT 手法を改善できるか?
主な発見
- BEV に焦点を当てた小規模で多様な軌道予測の集合は、長い遮蔽の探索空間を大幅に削減し、長期追跡の頑健性を向上させる。
- データ駆動 BEV ローカライズは GT に近い性能を達成し、長い遮蔽に対するピクセル空間予測を上回る。
- 少数サンプルの MG-GAN を用いた多モード予測は、BEV での長い遮蔽に対して線形モデルを上回り、長遮蔽時のID損失を減らす。
- 外観と IoU を考慮したマッチング戦略と予測を統合すると、アソシエーションのリコールと精度の最良のトレードオフを得られる。
- このアプローチは、static MOT17/MOT20 のシーケンスで、複数のベースライン MOT モデルにわたり、HOTA、AssA、IDSW を一貫して向上させる。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。