Skip to main content
QUICK REVIEW

[論文レビュー] Visual Object Tracking With Discriminative Filters and Siamese Networks: A Survey and Outlook

Sajid Javed, Martin Danelljan|arXiv (Cornell University)|Dec 6, 2021
Video Surveillance and Tracking Methods被引用数 15
ひとこと要約

本サーベイは、視覚的オブジェクト追跡分野における判別的相関フィルタ(DCFs)とシameseネットワーク(SNs)の包括的分析を提供しており、9つのベンチマークで90以上のトラッカーをカバーしている。理論的基盤を詳細に説明し、期待平均オーバーラップ(EAO)などの指標における性能を比較し、共通および特異的な課題を特定したうえで、耐障害性、リアルタイム性、マルチオブジェクト追跡の分野における今後の研究方針を提言している。

ABSTRACT

Accurate and robust visual object tracking is one of the most challenging and fundamental computer vision problems. It entails estimating the trajectory of the target in an image sequence, given only its initial location, and segmentation, or its rough approximation in the form of a bounding box. Discriminative Correlation Filters (DCFs) and deep Siamese Networks (SNs) have emerged as dominating tracking paradigms, which have led to significant progress. Following the rapid evolution of visual object tracking in the last decade, this survey presents a systematic and thorough review of more than 90 DCFs and Siamese trackers, based on results in nine tracking benchmarks. First, we present the background theory of both the DCF and Siamese tracking core formulations. Then, we distinguish and comprehensively review the shared as well as specific open research challenges in both these tracking paradigms. Furthermore, we thoroughly analyze the performance of DCF and Siamese trackers on nine benchmarks, covering different experimental aspects of visual tracking: datasets, evaluation metrics, performance, and speed comparisons. We finish the survey by presenting recommendations and suggestions for distinguished open challenges based on our analysis.

研究の動機と目的

  • 過去10年間にわたり視覚的オブジェクト追跡分野で主流を占める2つのパラダイム、判別的相関フィルタ(DCFs)とシameseネットワーク(SNs)の体系的レビューを提供すること。
  • VOT、GOT-10K、TrackingNetなどを含む9つの主要な追跡ベンチマークにおいて、90以上のDCFおよびシameseベースのトラッカーの性能を分析・比較すること。
  • 境界アーティファクト、オンライン適応性、幾何的推定などの共通および特異的な課題を特定・区別すること。
  • セグメンテーションの統合、効率的なバックボーンネットワーク、トランスフォーマーの役割といった根拠に基づいた今後の研究方向性の提言を行うこと。
  • オープンワールド環境における視覚的追跡、動画セグメンテーション、SLAM、マルチオブジェクト追跡の統合基盤を構築すること。

提案手法

  • 最小二乗損失を用いたオンライン相関フィルタ学習とFFTを用いた高速畳み込みによる検出の、DCFsの理論的基盤を体系的にレビューする。
  • 類似性を埋め込み空間で学習する二重ブランチアーキテクチャに注目し、シameseネットワークの追跡への応用を分析する。このアプローチでは、ターゲットパッチ間の距離を最小化し、背景パッチ間の距離を最大化することで、類似性を学習する。
  • 期待平均オーバーラップ(EAO)、平均成功率(mSR)、AUCといった標準指標を用いて、9つのベンチマークにおけるトラッカー性能を比較する。
  • 速度と精度のトレードオフを評価し、DiMP(VOT2019でのEAO: 0.274)やSiamMask(VOT2018でのEAO: 0.321)といった最先端の結果を強調する。
  • 現代のDCF(例:DiMP、PrDiMP)におけるエンドツーエンドのオフライン学習と、シameseトラッカーにおけるオンライン適応の限界を統合的に分析する。
  • トランスフォーマーを用いた特徴強化および相関学習の動向を調査し、STARKが自己注意を用いて相関フィルタを予測する例を示す。

実験結果

リサーチクエスチョン

  • RQ1標準ベンチマーク上での精度、耐障害性、速度の観点から、DCFベースとシameseネットワークベースのトラッカーはどのように比較されるか?
  • RQ2境界アーティファクト、最適化の難しさ、オンラインモデル適応性といった、DCFおよびシamese追跡における共通および特異的な課題は何か?
  • RQ3深層特徴表現およびバックボーンアーキテクチャ(例:ResNet)は、両パラダイムにおけるトラッカー性能にどの程度影響を与えるか?
  • RQ4エンドツーエンド学習、セグメンテーション統合、アテンションメカニズムといった最近の進展は、追跡性能および一般化能力にどのような影響を与えるか?
  • RQ5オープンワールド環境における耐障害性、リアルタイム性、マルチオブジェクト追跡を実現するにあたり、主な未解決課題は何か?

主な発見

  • 最良のDCFトラッカーであるDiMPは、VOT2019ベンチマークでEAO 0.274を達成し、KCF(EAO: 0.181)やSRDCF(EAO: 0.192)といった初期手法を大きく上回った。
  • 最良のシameseトラッカー、SiamMaskは、VOT2018でEAO 0.321を達成し、精度とセグメンテーション能力の両面で優れた性能を示した。
  • GOT-10Kベンチマークでは、SOTAのシameseトラッカーSiamR-CNNがmAO 0.649を達成した一方、最良のDCFトラッカーであるPrDiMPはmAO 0.634を記録し、両パラダイムの強い一致が示された。
  • トランスフォーマーは現代のトラッカーにおいて有効なコンponentsとして浮上しており、STARKが自己注意を用いて相関フィルタを予測することで、高い精度と耐障害性を達成した。
  • SiamMask や D3S で見られるように、セグメンテーションのトラッキングフレームワークへの統合は、バウンディングボックス回帰とモデル更新の耐障害性を著しく向上させた。
  • 進展は見られても、非平面な物体に対するホモロジー推定などの幾何的対応関係推定や、ResNetのような深層バックボーンを搭載したCPUプラットフォームにおけるリアルタイム性能の課題は依然として残っている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。