Skip to main content
QUICK REVIEW

[論文レビュー] SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines

Yinda Xu, Zeyu Wang|arXiv (Cornell University)|Nov 14, 2019
Video Surveillance and Tracking Methods参考文献 29被引用数 57
ひとこと要約

SiamFC++は視覚追跡の実用的なターゲット推定ガイドラインを導入し、品質ブランチを備えたアンカーなしのピクセル単位Siameseトラッカーを構築し、5つのベンチマークで高速かつ最先端の結果を達成します。

ABSTRACT

Visual tracking problem demands to efficiently perform robust classification and accurate target state estimation over a given target at the same time. Former methods have proposed various ways of target state estimation, yet few of them took the particularity of the visual tracking problem itself into consideration. After a careful analysis, we propose a set of practical guidelines of target state estimation for high-performance generic object tracker design. Following these guidelines, we design our Fully Convolutional Siamese tracker++ (SiamFC++) by introducing both classification and target state estimation branch(G1), classification score without ambiguity(G2), tracking without prior knowledge(G3), and estimation quality score(G4). Extensive analysis and ablation studies demonstrate the effectiveness of our proposed guidelines. Without bells and whistles, our SiamFC++ tracker achieves state-of-the-art performance on five challenging benchmarks(OTB2015, VOT2018, LaSOT, GOT-10k, TrackingNet), which proves both the tracking and generalization ability of the tracker. Particularly, on the large-scale TrackingNet dataset, SiamFC++ achieves a previously unseen AUC score of 75.4 while running at over 90 FPS, which is far above the real-time requirement. Code and models are available at: https://github.com/MegviiDetection/video_analyst .

研究の動機と目的

  • 高性能トラッカーにおけるターゲット状態推定の実用的なガイドラインを特定する。
  • アンカーなしで分類と正確なターゲット状態推定を統合したSiameseトラッカーを設計する。
  • 局在化を改善するために推定品質スコアを組み込む。
  • 多様なベンチマークで最先端の性能と一般化を実証する。

提案手法

  • クロスコレレーションの後に分類ヘッドと回帰ヘッドの両方を備えた完全畳み込みSiameseトラッカーを開発する。
  • ピクセル位置で予測することによってアンカーに基づくマッチングを排除し、あいまいでないスコア付けとターゲットサイズ分布の事前知識なしを可能にする。
  • 推定品質ブランチを導入し、推論時の境界ボックス品質を重み付けるPrior Spatial Score (PSS) を出力する。
  • 分類損失、品質損失、回帰損失を結合した学習目的関数を定義する (L = Lcls + lambda*Lquality + lambda*Lreg)。
  • 頑健な境界ボックス選択のため、分類スコアと品質スコアを掛け合わせるペナルティ付き最終スコアを用いる。
  • 2つのバックボーン(AlexNetとGoogLeNet)を評価し、設計選択を正当化するための大規模なアブレーションを実施する。

実験結果

リサーチクエスチョン

  • RQ1分類とターゲット状態推定を分解することで追跡の頑健性と精度は向上するか?
  • RQ2アンカーなし・ピクセル単位の予測は、スコア付けと推定の両方においてアンカーベースの手法より望ましいか?
  • RQ3推定品質スコア(PSSまたはIoUベース)を組み込むと局在化精度は向上するか?
  • RQ4提案されたガイドラインは多様な追跡ベンチマークで最先端の結果をもたらし、リアルタイム速度を維持するか?

主な発見

  • SiamFC++は5つのベンチマーク(OTB2015、VOT2018、LaSOT、GOT-10k、TrackingNet)で最先端の結果を達成。
  • TrackingNetでSiamFC++-GoogLeNetはAUC 75.4を達成し、90 FPSを超える速度で動作。
  • アンカーを削除しピクセル単位の予測を使用することで、アンカーベースのトラッカー(SiamRPN++など)と比較してマッチングの曖昧さを減らし、頑健性と一般化を向上。
  • 推定品質スコア(PSS)の組み込みは局在化精度と頑健性を向上させ、データセット全体の安定性を確保するためにPSSが選択される。
  • AlexNetとGoogLeNetのバリアントは、VOT2018でのEAOが0.400と競争力のある速度・性能のトレードオフを提供し、頑健性に優れる。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。