Skip to main content
QUICK REVIEW

[論文レビュー] Bridging the Gap Between End-to-end and Non-End-to-end Multi-Object Tracking

Feng Yan, Weixin Luo|arXiv (Cornell University)|May 22, 2023
Video Surveillance and Tracking Methods被引用数 11
ひとこと要約

CO-MOTは coopetition label assignment (COLA) と shadow query set を導入し、エンドツーエンド MOT モデルをより効果的に訓練することで追跡性能を追加の検出器なしで向上させ、DanceTrack、BDD100K、MOT17 で強力な結果を達成します。

ABSTRACT

Existing end-to-end Multi-Object Tracking (e2e-MOT) methods have not surpassed non-end-to-end tracking-by-detection methods. One potential reason is its label assignment strategy during training that consistently binds the tracked objects with tracking queries and then assigns the few newborns to detection queries. With one-to-one bipartite matching, such an assignment will yield unbalanced training, i.e., scarce positive samples for detection queries, especially for an enclosed scene, as the majority of the newborns come on stage at the beginning of videos. Thus, e2e-MOT will be easier to yield a tracking terminal without renewal or re-initialization, compared to other tracking-by-detection methods. To alleviate this problem, we present Co-MOT, a simple and effective method to facilitate e2e-MOT by a novel coopetition label assignment with a shadow concept. Specifically, we add tracked objects to the matching targets for detection queries when performing the label assignment for training the intermediate decoders. For query initialization, we expand each query by a set of shadow counterparts with limited disturbance to itself. With extensive ablations, Co-MOT achieves superior performance without extra costs, e.g., 69.4% HOTA on DanceTrack and 52.8% TETA on BDD100K. Impressively, Co-MOT only requires 38\% FLOPs of MOTRv2 to attain a similar performance, resulting in the 1.4$ imes$ faster inference speed.

研究の動機と目的

  • エンドツーエンド MOT が検出ベースの非エンドツーエンド方式に遅れをとる理由を動機づけて分析する。
  • COLA(coopetition label assignment)を提案し、追跡クエリと検出クエリを一緒に訓練する。
  • one-to-set(shadow)マッチング機構を導入し、one-to-one マッチングの制約を緩和する。
  • 追加の検出器オーバーヘッドなしに CO-MOT が追跡性能を改善することを示す。
  • 多様な MOT ベンチマークで一般化と効率向上を示す。

提案手法

  • COLA を導入して中間デコーダが追跡対象を検出クエリの訓練に共同利用できるようにする。
  • shadow セットを提案し、各クエリに複数の shadow の相当物を付与して one-to-set マッチングを実現する。
  • shadow に基づく訓練スキーム(S-COLA/S-TALA)を用いて、セットごとに代表的なクエリを選択し Hungarian マッチングを行う。
  • shadow の概念を用いた one-to-set マッチングを適用し、正サンプル供給と一般化を改善する。
  • 検出クエリと追跡クエリ間の注意力の相互作用を評価し、情報フローの補完性を示す。
  • COLA を中間デコーダに拡張した標準的な DETR 風の訓練/ラベル割り当てフレームワークを維持する。
Figure 1 : Visualization of tracking results in DanceTrack0073 sun2022dancetrack and MOT17-09 milan2016mot16 videos. The first row displays the tracking results from MOTR zeng2022motr , where all individuals can be correctly initialized at the beginning (#237 and #302). However, heavy occlusion appe
Figure 1 : Visualization of tracking results in DanceTrack0073 sun2022dancetrack and MOT17-09 milan2016mot16 videos. The first row displays the tracking results from MOTR zeng2022motr , where all individuals can be correctly initialized at the beginning (#237 and #302). However, heavy occlusion appe

実験結果

リサーチクエスチョン

  • RQ1検出クエリと追跡クエリ間の coopetition ラベリングは外部検出器なしでエンドツーエンド MOT の性能を改善できるか?
  • RQ2shadow で增加された one-to-set マッチングスキームは MOT のデータ集約性に弱い Transformer の特性に対処し一般化を強化するか?
  • RQ3COLA と shadow を適用した Transformer ベースの MOT パイプラインにおいて検出クエリと追跡クエリは互いにどのように影響し合うか?
  • RQ4CO-MOT は既存のエンドツーエンド MOT 手法や検出器ベースのベースラインと比べて効率性はどうか?

主な発見

方法HOTA*DetAAssAMOTAIDF1
CO-MOT(ours)69.482.158.991.271.9
  • CO-MOT は DanceTrack で HOTA が 69.4%、追加の検出器を必要とせず最先端の結果を達成。
  • CO-MOT は結合の改善と追跡の改善を示し、例として DanceTrack で DetA 82.1、AssA 58.9、MOTA 91.2、IDF1 71.9 を報告の表にて示す。
  • COLA と Shadow は共に HOTA と AssA を改善し、COLA は追跡の正確さと結合に著しい寄与をする。
  • MOTRv2 と比較して、CO-MOT は競合する HOTA を提供しつつ推論が 1.4x 速く、事前訓練済み検出器に依存しない。
  • シャドウの数が少ない(N_S=3)場合でも max/ min の代表戦略が最良の結果を与え、Gaussian ノイズを用いたシャドウ初期化は収束を改善する。
  • 効率性分析は CO-MOT が MOTR と同程度の FLOPs とパラメータ数で、同等かそれ以上の追跡性能を発揮することを示す。
Figure 3 : The CO-MOT framework includes a CNN-based backbone network for extracting image features, a deformable encoder for encoding image features, and a deformable decoder that uses self-attention and cross-attention mechanisms to generate output embeddings with bounding box and class informatio
Figure 3 : The CO-MOT framework includes a CNN-based backbone network for extracting image features, a deformable encoder for encoding image features, and a deformable decoder that uses self-attention and cross-attention mechanisms to generate output embeddings with bounding box and class informatio

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。