QUICK REVIEW

[論文レビュー] Do Different Tracking Tasks Require Different Appearance Models?

Zhongdao Wang, Hengshuang Zhao|arXiv (Cornell University)|Jul 5, 2021

Video Surveillance and Tracking Methods参考文献 110被引用数 32

ひとこと要約

UniTrack は、タスクに依存しない単一の外観モデルとタスク固有のヘッドを用いて、SOT、VOS、MOT、MOTS、PoseTrack の5つの追跡タスクを扱い、伝搬と関連づけのプリミティブを用いて、非特化のトレーニングでも競争力のある結果を実現します。

ABSTRACT

Tracking objects of interest in a video is one of the most popular and widely applicable problems in computer vision. However, with the years, a Cambrian explosion of use cases and benchmarks has fragmented the problem in a multitude of different experimental setups. As a consequence, the literature has fragmented too, and now novel approaches proposed by the community are usually specialised to fit only one specific setup. To understand to what extent this specialisation is necessary, in this work we present UniTrack, a solution to address five different tasks within the same framework. UniTrack consists of a single and task-agnostic appearance model, which can be learned in a supervised or self-supervised fashion, and multiple ``heads'' that address individual tasks and do not require training. We show how most tracking tasks can be solved within this framework, and that the same appearance model can be successfully used to obtain results that are competitive against specialised methods for most of the tasks considered. The framework also allows us to analyse appearance models obtained with the most recent self-supervised methods, thus extending their evaluation and comparison to a larger variety of important problems.

研究の動機と目的

複数の追跡タスクに対する統一的でタスクに依存しない外観表現を動機づける。
共有表現がSOT、VOS、MOT、MOTS、PoseTrackの競争力ある結果を達成できることを示す。
共通の外観モデルと連携する伝搬および関連づけプリミティブを導入する。
リコンストラクションに基づく類似度指標を提案し、形式（ボックス、マスク、ポーズ）を跨ぐ堅牢な関連づけを実現する。
自己監視表現をビデオ追跡の汎用特徴として評価する。

提案手法

フレームから高解像度特徴マップを抽出するための学習可能な一般的外観モデル φ を使用する。
追跡タスクを伝搬（SOT、VOS）または関連づけ（MOT、MOTS、PoseTrack）プリミティブとして表現する。
適切な機構（アフィニティベースのマスク伝搬、ボックスにはクロス相関/DCF、ポーズにはガウス信念マップ）を用いてマスク、ボックス、ポーズを伝搬する。
異なる観測形式間の関連付けを計算する新規の Reconstruction Similarity Metric（RSM）を用いて対称的な親和度を得る。
プリミティブ上で動作するタスク固有ヘッドを取り付け、タスク固有の外観モデルのトレーニングなしで5つの追跡タスクを解決する。
UniTrack の枠組み内で幅広い自己教師付き表現（画像レベル、ピクセルレベル、ビデオベース）を評価する。

実験結果

リサーチクエスチョン

RQ1単一の共有外観モデルが5つの異なる追跡タスクで競争力を発揮できるか？
RQ2伝搬と関連づけプリミティブが統一表現とどのように相互作用してSOT、VOS、MOT、MOTS、PoseTrackを解決するか？
RQ3リコンストラクションベースの類似度測度は異なる観測形式間での多物体関連付けを改善するか？
RQ4統一追跡フレームワークで自己教師付きと教師あり表現の影響はどのようになるか？
RQ5UniTrack 内で自己教師付きのビデオベース表現は画像ベース表現より追跡においてどの程度優れているか？

主な発見

単一の外観モデルは、適切なタスクヘッドと組み合わせることでSOT、VOS、MOT、MOTS、PoseTrackの競争力のある性能を達成できる。
リコンストラクションベースの類似度指標（RSM）は、マスク、ボックス、ポーズ間の関連付けを改善するために細かな特徴を保持する。
自己教師付き表現、特にVFSのようなビデオベースの表現は、タスク間で一般的に第一位に位置するが、素のImageNet監督は多くの設定で依然として高い性能を示す。
ImageNet監督エピソードの特徴は予想外にも多くのタスクで有効であり、専門的手法に対して競争力のあるベースラインを提供する。
ビデオ訓練済みSSLモデル（例: VFS）は、モーション豊かなビデオドメインのタスクで有利であり、下流の追跡タスクへのドメインギャップを低減する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。