Skip to main content
QUICK REVIEW

[論文レビュー] Rethinking the competition between detection and ReID in Multi-Object Tracking

Chao Liang, Zhipeng Zhang|arXiv (Cornell University)|Oct 23, 2020
Video Surveillance and Tracking Methods被引用数 32
ひとこと要約

本論文は、Reciprocal Network (REN) と Scale-aware Attention Network (SAAN) を備えたワンショット MOT フレームワーク CSTrack を提案し、検出と ReID の競合を低減させ、MOT16/17/20 で最先端の結果を達成し、高い FPS で実行できる。

ABSTRACT

Due to balanced accuracy and speed, one-shot models which jointly learn detection and identification embeddings, have drawn great attention in multi-object tracking (MOT). However, the inherent differences and relations between detection and re-identification (ReID) are unconsciously overlooked because of treating them as two isolated tasks in the one-shot tracking paradigm. This leads to inferior performance compared with existing two-stage methods. In this paper, we first dissect the reasoning process for these two tasks, which reveals that the competition between them inevitably would destroy task-dependent representations learning. To tackle this problem, we propose a novel reciprocal network (REN) with a self-relation and cross-relation design so that to impel each branch to better learn task-dependent representations. The proposed model aims to alleviate the deleterious tasks competition, meanwhile improve the cooperation between detection and ReID. Furthermore, we introduce a scale-aware attention network (SAAN) that prevents semantic level misalignment to improve the association capability of ID embeddings. By integrating the two delicately designed networks into a one-shot online MOT system, we construct a strong MOT tracker, namely CSTrack. Our tracker achieves the state-of-the-art performance on MOT16, MOT17 and MOT20 datasets, without other bells and whistles. Moreover, CSTrack is efficient and runs at 16.4 FPS on a single modern GPU, and its lightweight version even runs at 34.6 FPS. The complete code has been released at https://github.com/JudasDie/SOTS.

研究の動機と目的

  • ワンショット MOT フレームワークにおいて、検出と ReID が競合する理由を動機づけ、分析する。
  • タスク固有の表現を学習する仕組みを開発し、タスク間の協調を改善する。
  • スケール間での意味的なずれを防ぎ、ID 埋め込みを改善する。
  • オンライン MOT トラッカー CSTrack を構築し、最先端の性能と効率を示す。

提案手法

  • 自己関係と他者関係を用いてタスク特有の特徴を分離し交換する Reciprocal Network (REN) を提案する。
  • 多解像度特徴を空間および channel 注意で統合し、堅牢な ID 埋め込みを得る Scale-aware Attention Network (SAAN) を導入する。
  • REN と SAAN を JDE 系のベースラインを用いたオンライン MOT フレームワーク CSTrack に統合する。
  • 検出損失(分類 + CIOU ベースの回帰)と ReID 損失を結合したジョイント損失で学習し、可調整な重みでバランスを取る。
  • JDE に啓発されたデータアソシエーションのためのカスケードマッチング戦略でオンライン追跡を行う。

実験結果

リサーチクエスチョン

  • RQ1検出と ReID の競合は、一回撮 MOT 表現と性能にどう影響するか?
  • RQ2REN はこの競合を緩和し、タスク依存の表現学習を改善できるか?
  • RQ3SAAN はスケール間の意味的ずれを緩和して ID 埋め込みを改善できるか?
  • RQ4CSTrack は MOT16/17/20 における精度と速度の点で最先端のオンライン MOT 手法と比較してどうか?

主な発見

  • 検出ベースラインを YOLOv5 に置換すると YOLOv3 と比べて強力な性能向上をもたらし、堅実なベースラインを確立。
  • REN は MOTA を 1.9 ポイント、IDF1 を 2.4 ポイント改善し、ID スイッチを 1798 から 1365 に削減。
  • SAAN は スケール間での ID 埋め込みの整合性を改善し、IDF1 を +8.6 ポイント大幅に向上。
  • REN と SAAN を組み込んだ CSTrack は MOT16 で MOTA 72.9、IDF1 71.6、ID スイッチ 1121 を達成し、素の JDE 設定を上回る。
  • 1回ショットのベースラインと比較して、CSTrack は MOTA および IDF1 で顕著な改善を示しつつ、オンライン追跡性能を維持。
  • 全体として CSTrack は MOT16、MOT17、MOT20 で最先端/競争力のある結果を達成し、単一 GPU での FPS は 16.4(軽量版は 34.6)と報告。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。