[論文レビュー] Target Transformed Regression for Accurate Tracking
TREG はターゲット認識型 Transformer ベースの回帰ブランチをアンカーフリートラッキングのために導入し、オンラインターゲットテンプレートキューを備え、約30 FPS で八つのベンチマークにわたって最先端の結果を達成します。
Accurate tracking is still a challenging task due to appearance variations, pose and view changes, and geometric deformations of target in videos. Recent anchor-free trackers provide an efficient regression mechanism but fail to produce precise bounding box estimation. To address these issues, this paper repurposes a Transformer-alike regression branch, termed as Target Transformed Regression (TREG), for accurate anchor-free tracking. The core to our TREG is to model pair-wise relation between elements in target template and search region, and use the resulted target enhanced visual representation for accurate bounding box regression. This target contextualized representation is able to enhance the target relevant information to help precisely locate the box boundaries, and deal with the object deformation to some extent due to its local and dense matching mechanism. In addition, we devise a simple online template update mechanism to select reliable templates, increasing the robustness for appearance variations and geometric deformations of target in time. Experimental results on visual tracking benchmarks including VOT2018, VOT2019, OTB100, GOT10k, NFS, UAV123, LaSOT and TrackingNet demonstrate that TREG obtains the state-of-the-art performance, achieving a success rate of 0.640 on LaSOT, while running at around 30 FPS. The code and models will be made available at https://github.com/MCG-NJU/TREG.
研究の動機と目的
- アンカーを使わないトラッキングにおける境界情報を回帰時に保持することで精度を向上させることを動機づける。
- ターゲットの外観をペアワイズのターゲット探索相互作用を通じて密に統合する回帰ブランチを開発する。
- appearance の変動と形状変形に適応するオンラインターゲットテンプレートキューを組み込む。
- 8 つの主要トラッキングベンチマークで最先端の性能を示す。
- 実用的な適用に適した実時間効率 (~30 FPS) を維持する。
提案手法
- ターゲットテンプレート要素をキー/値としてエンコードし、探索領域の特徴をクエリとして使用してターゲット強化表現を生成し、境界オフセット回帰を高精度化するターゲット認識型 transformer 回帰ブランチを提案する。
- オンラインテンプレートキューを導入する(3 つの静的ターゲット + 4 つのオンラインターゲット)、信頼度ベースの戦略に基づいて更新し、外観変化に対処する。
- ターゲット変換回帰とオンライン分類ブランチ(DiMP-スタイル)を組み合わせて、完全なアンカーフリートラッカーを形成する。
- ResNet-50 バックボーンと回帰ヘッドの変形可能畳み込みを用いて、IoUベースの回帰損失と標準的な分類目的でエンドツーエンドに訓練する。
- 8つのベンチマーク(VOT2018/2019、LaSOT、TrackingNet、GOT10k、UAV123、NFS、OTB100)で SOTA 性能を確立する。
- 推論速度を単一の RTX 2080Ti で約 30 FPS 程度に維持する。
実験結果
リサーチクエスチョン
- RQ1ターゲット情報をアンカーフリーレグレッションブランチに統合して、変形や視点変化の下で境界精度を保持するにはどうすればよいか?
- RQ2トランスフォーマー風のターゲット認識回帰は、トラッキングにおける深さ方向の相関やピクセル単位の注意よりも精度と堅牢性を向上させるか?
- RQ3信頼度ベースの更新を伴うオンラインターゲットテンプレートキューが、時間とともなる外観変化へのトラッキングの堅牢性に与える影響は?
- RQ4TREG を DiMP ベースの分類ヘッドと組み合わせることで、多様なベンチマークで最先端の性能を発揮できるか?
主な発見
- TREG は LaSOT の成功率が 0.640、約 30 FPS で八つのベンチマークで最先端の結果を達成。
- 基線実験から、ターゲット認識型トランスフォーマは深さ方向の相関やピクセル単位の注意ヴァリアントに比べて、精度と AUC を有意に向上させることを示した。
- 信頼度ベースの戦略でのオンラインテンプレート更新は、静的ターゲットのみの場合と比べて AUC を約 0.9–1.2 ポイント、Precision を 1.2–1.5 ポイント改善。
- VOT2018 では TREG が EAO 0.496、Robustness 0.098 を達成し、従来のトラッカーを上回った。
- VOT2019 では TREG が EAO 0.391、Robustness 0.221、Accuracy 0.603 を達成し、従来手法を凌駕した。
- TrackingNet の結果は、TREG を使用した場合に Precision、Normalized Precision、Success rate の顕著な改善を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。