[論文レビュー] OmniTracker: Unifying Object Tracking by Tracking-with-Detection
OmniTracker は、参照ガイド付き特徴強化と共有ネットワーク重みを用いた追跡-検出パラダイムで、インスタンス追跡(SOT/VOS)とカテゴリ追跡(MOT/MOTS/VIS)を統合的に処理する Deformable DETR ベースのモデルを提示します。
Visual Object Tracking (VOT) aims to estimate the positions of target objects in a video sequence, which is an important vision task with various real-world applications. Depending on whether the initial states of target objects are specified by provided annotations in the first frame or the categories, VOT could be classified as instance tracking (e.g., SOT and VOS) and category tracking (e.g., MOT, MOTS, and VIS) tasks. Different definitions have led to divergent solutions for these two types of tasks, resulting in redundant training expenses and parameter overhead. In this paper, combing the advantages of the best practices developed in both communities, we propose a novel tracking-with-detection paradigm, where tracking supplements appearance priors for detection and detection provides tracking with candidate bounding boxes for the association. Equipped with such a design, a unified tracking model, OmniTracker, is further presented to resolve all the tracking tasks with a fully shared network architecture, model weights, and inference pipeline, eliminating the need for task-specific architectures and reducing redundancy in model parameters. We conduct extensive experimentation on seven prominent tracking datasets of different tracking tasks, including LaSOT, TrackingNet, DAVIS16-17, MOT17, MOTS20, and YTVIS19, and demonstrate that OmniTracker achieves on-par or even better results than both task-specific and unified tracking models.
研究の動機と目的
- インスタンス追跡とカテゴリ追跑の両方のタスクを網羅する統一的な追跡フレームワークを提案する。
- 検出を補強する追跡機から得られる事前情報を用い、検出ボックスが追跡の関連付けを補助する、追跑と検出を組み合わせたパラダイムを提案する。
- 複数の追跡タスクを処理できる共有アーキテクチャ、重み、および推論パイプラインを備えた OmniTracker を開発する。
- メモリベースのアイデンティティ埋め込みと対照的な ReID 損失を活用して、フレーム間で物体を堅牢に関連付ける。)
提案手法
- Cross-attention によって前フレームの外観事前情報を現在フレームの特徴と融合する Reference-guided Feature Enhancement (RFE) モジュールを導入する。
- 強化された特徴を Deformable DETR detector に埋め込み、全フレームの境界ボックスとマスクを予測する。
- フレーム間で安定したオブジェクトIDを学習するために、対照的な ReID 損失を用いたアイデンティティ埋め込みのメモリバンクを使用する。
- 分類、ボックス回帰、マスク項を組み合わせたフレームごとの検出損失を set-p 予測フレームワークで計算する。
- Kalman-filter の運動モデリングと Hungarian データアソシエーションを全タスクにまたがって統一したオンライン追跡パイプラインを採用する。
- SOT、VOS、MOT、MOTS、VIS に加え COCO で共同訓練し、タスク統一最適化を可能にする。
実験結果
リサーチクエスチョン
- RQ1単一の共有ネットワークアーキテクチャと訓練スキームで、インスタンス追跡とカテゴリ追跡の両方のタスクを効果的に解決できるか?
- RQ2RFE の導入は追跡のための検出器の外観事前情報を改善し、フレーム間の堅牢な関連付けを可能にするか?
- RQ3多様な追跡タスクにまたがる共同訓練は、タスク固有またはハイブリッド訓練と比較して性能と一般化にどのような影響を与えるか?
- RQ4フレーム間で一貫したオブジェクトIDを維持する際の、メモリベースのアイデンティティ埋め込みと対照的な ReID 損失の役割は何か?
主な発見
- OmniTracker はLaSOT、TrackingNet、DAVIS 16-17、MOT17、MOTS20、YTVIS19 を含む七つの追跡ベンチマークで最先端または競争力のある結果を達成します。
- RFE モジュールは外観 priors を用いた検出を改善し、TrackingNet で P_norm を、MOT17 で MOTA を、アブレーション時に高める。
- タスク間の共同訓練は、別々の訓練や Unicorn ベースラインと比較して一貫した利得を生み、いくつかのベンチマークで顕著な改善を示します。
- OmniTracker は SOT、VOS、MOT、MOTS、VIS のすべてタスクに対して完全に共有されたパイプラインを維持し、タスク別モデルと比較して FPS でも競争力があります。
- VOS では、OmniTracker はマルチタスクのベースラインおよびいくつかの統一モデルを上回り、1フレームごとおよび長期の関連付け性能が高いことを示します。
- VIS では、OmniTracker-L が VIS 専用手法と対して競争力のある mAP および関連指標を達成します。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。