Skip to main content
QUICK REVIEW

[論文レビュー] TransTrack: Multiple Object Tracking with Transformer

Peize Sun, Jinkun Cao|arXiv (Cornell University)|Dec 31, 2020
Video Surveillance and Tracking Methods参考文献 62被引用数 359
ひとこと要約

TransTrack は、検出のための学習済みオブジェクトクエリと、追跡のための前フレームからの track クエリという 2 つのクエリソースを用いた、単一ショットの MOT を実行するトランスフォーマーベースのジョイント検出-追跡フレームワークを導入する。検出時に Re-ID モジュールや NMS を必要とせず、MOT17 および MOT20 で競争力のある MOTA を達成する。

ABSTRACT

In this work, we propose TransTrack, a simple but efficient scheme to solve the multiple object tracking problems. TransTrack leverages the transformer architecture, which is an attention-based query-key mechanism. It applies object features from the previous frame as a query of the current frame and introduces a set of learned object queries to enable detecting new-coming objects. It builds up a novel joint-detection-and-tracking paradigm by accomplishing object detection and object association in a single shot, simplifying complicated multi-step settings in tracking-by-detection methods. On MOT17 and MOT20 benchmark, TransTrack achieves 74.5\% and 64.5\% MOTA, respectively, competitive to the state-of-the-art methods. We expect TransTrack to provide a novel perspective for multiple object tracking. The code is available at: \url{https://github.com/PeizeSun/TransTrack}.

研究の動機と目的

  • 単一ステージで検出とアソシエーションを統合する、シンプルかつ効率的な MOT アプローチを動機付ける。
  • トランスフォーマーのアテンションを活用して、検出済みオブジェクトを前方へ伝播しつつ新規オブジェクトを検出する。
  • 検出時の NMS などのマルチステージパイプラインを排除または削減する。
  • MOT17 および MOT20 ベンチマークで競争力のある MOT パフォーマンスを示す。
  • MOT におけるクエリ入力とマッチング戦略の設計選択に関する洞察を提供する。

提案手法

  • 学習済みオブジェクトクエリ から検出ボックスを予測するデコーダと、前フレームのオブジェクトから派生した track クエリ から追跡ボックスを予測するデコーダの 2 路線デコーダアーキテクチャを採用する。
  • 2 つの連続フレームの特徴を融合した共有エンコーダを、両デコーダのバックボーンとして使用する。
  • 検出ボックスと追跡ボックスの 2 セットを出力し、IoU ベースのハンガリアンマッチングを用いて最終的な追跡集合を形成する。
  • 一致したペアに対してセットベースの損失(分類、L1、Generalized IoU)を適用し、DETR 風の損失に従って訓練する。
  • デフォルメ可能トランスフォーマをデフォルトのアーキテクチャとして採用し、マルチスケール特徴を融合して精度を向上させる。
  • 推論時には、オクルージョン耐性を高めるため、未マッチの追跡ボックスを K フレーム間 active に保つことで track の再発生を行う。

実験結果

リサーチクエスチョン

  • RQ1トランスフォーマー ベースの MOT モデルは、Re-ID モジュールなしでフレーム間の物体を同時に検出・関連付けできるか。
  • RQ2前フレームからの track クエリを組み込むことが、MOT における物体の関連付けと検出の頑健性にどう影響するか。
  • RQ3デュアルクエリストリーム(オブジェクトクエリとトラッククエリ)を用いることが、MOTA や ID のような MOT パフォーマンス指標にどのような影響を与えるか。
  • RQ4変形可能トランスフォーマなど、どのようなアーキテクチャ上の選択が、速度を維持しつつ MOT パフォーマンスを最大化するか。
  • RQ5TransTrack は混雑した MOT ベンチマークにおいて、検出器+モーションまたは検出器+Re-ID のベースラインと比較してどうか。

主な発見

BenchmarkMethodDataMOTA ↑IDF1 ↑MOTP ↑MT ↑ML ↓FP ↓FN ↓IDS ↓
MOT17TransTrack (ours)CH74.563.980.646.811.3283231121373663
MOT20TransTrack (ours)CH64.559.280.049.113.6285661513773565
  • TransTrack は MOT17 で 74.5 MOTA、MOT20 で 64.5 MOTA を、プライベート検出器設定の下で達成し、競争力のある性能を示す。
  • オブジェクトクエリとトラッククエリの両方を用いることで、いずれか一方だけを用いる場合に比べて検出と追跡の性能が大きく向上する。
  • デフォルメ可能トランスフォーマをバックボーンとすると、試験したアーキテクチャの中で最高の MOTA(65.0)を得られ、位置合わせ(MOTP)が強力で、ID の数が少ない。
  • IoU ベースのハンガリアンマッチングを用いた 2 デコーダ設計は、伝統的な NMS を置換し、フレーム間のロバストな関連付けを提供できる。
  • CrowdHuman を事前訓練データとして MOT ファインチューニングと組み合わせると、MOT17 のパフォーマンスが著明に向上(CrowdHuman での事前訓練により MOTA が 64.8 に up、61.6 から向上)。
  • モーションモデルの比較では、TransTrack の track クエリアプローチが Kalman フィルタベースの方法と比較して、特にフレームを少なくサンプリングした場合に ID スイッチ耐性が同等かそれ以上である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。