QUICK REVIEW

[論文レビュー] Chained-Tracker: Chaining Paired Attentive Regression Results for End-to-End Joint Multiple-Object Detection and Tracking

Jinlong Peng, Changan Wang|arXiv (Cornell University)|Jul 29, 2020

Video Surveillance and Tracking Methods参考文献 40被引用数 32

ひとこと要約

本論文はChained-Tracker（CTracker）を提案するオンラインのエンドツーエンドMOTモデルで、隣接フレームのペア境界ボックスを回帰させ、それらを連結して軌跡を形成する。追加の学習データなしでMOT16/MOT17で最先端の結果を達成する。

ABSTRACT

Existing Multiple-Object Tracking (MOT) methods either follow the tracking-by-detection paradigm to conduct object detection, feature extraction and data association separately, or have two of the three subtasks integrated to form a partially end-to-end solution. Going beyond these sub-optimal frameworks, we propose a simple online model named Chained-Tracker (CTracker), which naturally integrates all the three subtasks into an end-to-end solution (the first as far as we know). It chains paired bounding boxes regression results estimated from overlapping nodes, of which each node covers two adjacent frames. The paired regression is made attentive by object-attention (brought by a detection module) and identity-attention (ensured by an ID verification module). The two major novelties: chained structure and paired attentive regression, make CTracker simple, fast and effective, setting new MOTA records on MOT16 and MOT17 challenge datasets (67.6 and 66.6, respectively), without relying on any extra training data. The source code of CTracker can be found at: github.com/pjl1995/CTracker.

研究の動機と目的

追跡-by-検出および部分的なエンドツーエンドMOTアプローチの最適性の欠如を動機づけ、課題に対処する。
検出、特徴抽出、およびデータ同一視を共同で行う完全なエンドツーエンドモデルを提案する。
ペア付きアテンション回帰と連鎖構造を導入し、フレーム間のアソシエーションをペアワイズ検出問題に変換する。
追加の学習データなしでMOT16およびMOT17で最先端のMOT性能を示す。

提案手法

隣接フレームのペア（チェーンノード）を入力として処理し、2フレーム間で同じターゲットを表すペアの境界ボックスを回帰する。
物体アテンションと識別アテンションを組み合わせたジョイントアテンションモジュールを用いて、ペアボックス回帰を導く。
Chained-Anchorsを導入して、単一の回帰内で隣接フレームの2つの境界ボックスを予測する。
IoUベースのマッチングとKuhn-Munkresアルゴリズムを用いて隣接ノードを連結し、長い軌跡を形成する。
ノード間でフレーム特徴を再利用するメモリ共有機構（MSM）を組み込み、推論を高速化する。
回帰、分類、ID検証項を含む多目的損失を用い、 focal lossesを用いて学習する。

実験結果

リサーチクエスチョン

RQ1検出、特徴抽出、データ同一視を共同最適化するエンドツーエンドMOTモデルは、従来のtracking-by-detectionや部分的なエンドツーエンド手法を上回ることができるか。
RQ2ペアリングされたアテンション（物体アテンションと識別アテンション）がオンラインMOT設定における回帰精度とデータ同一視を改善するか。
RQ3連結した隣接フレーム回帰アプローチは、フレーム間アソシエーションを頑健なペアワイズ検出問題に変換するか。
RQ4オンラインMOT推論におけるメモリ共有の効率性と精度のトレードオフは何か。

主な発見

CTrackerは追加の学習データなしでMOT16（67.6）およびMOT17（66.6）で最先端のMOTAを達成。
アブレーション研究は、物体アテンションとジョイントアテンション（ID検証を含む）がMOTAとIDF1を著しく向上させることを示す。
完全なJoint-Attention版（CTracker）はIDF1を顕著に改善し、データ同一視の向上を反映する一方でMOTPはわずかに低下。
メモリ共有機構が計算量を削減し、1080p入力で約34.4 FPSの追跡を実現。
MOT17のオンラインMOTベースラインと比較して、CTrackerは66.6 MOTAと57.4 IDF1を達成し、MOTPは競争力がある。
連結戦略は、IoUベースのマッチングとKM割り当てを介して隣接フレームペア間で長い軌跡を効果的に形成する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。