[論文レビュー] Distractor-aware Siamese Networks for Visual Object Tracking
本論文は DaSiamRPN を紹介する。これは視覚追跡のための distractor-aware Siamese ネットワークで、オフライン学習を semantic negative pairs で強化し、オンライン推論では distractor-aware モジュールを用い、長期追跡には local-to-global 戦略を追加する。これにより最先端の結果と高速性を達成している。
Recently, Siamese networks have drawn great attention in visual tracking community because of their balanced accuracy and speed. However, features used in most Siamese tracking approaches can only discriminate foreground from the non-semantic backgrounds. The semantic backgrounds are always considered as distractors, which hinders the robustness of Siamese trackers. In this paper, we focus on learning distractor-aware Siamese networks for accurate and long-term tracking. To this end, features used in traditional Siamese trackers are analyzed at first. We observe that the imbalanced distribution of training data makes the learned features less discriminative. During the off-line training phase, an effective sampling strategy is introduced to control this distribution and make the model focus on the semantic distractors. During inference, a novel distractor-aware module is designed to perform incremental learning, which can effectively transfer the general embedding to the current video domain. In addition, we extend the proposed approach for long-term tracking by introducing a simple yet effective local-to-global search region strategy. Extensive experiments on benchmarks show that our approach significantly outperforms the state-of-the-arts, yielding 9.6% relative gain in VOT2016 dataset and 35.9% relative gain in UAV20L dataset. The proposed tracker can perform at 160 FPS on short-term benchmarks and 110 FPS on long-term benchmarks.
研究の動機と目的
- 背景の意味的デコイ(semantic distractors)に対処することで、Siamese トラッカーの頑健性を向上させる。
- オフライン学習データのバランスを取り、意味的ネガティブとより難しいデコイに焦点を当てる。
- 一般的な埋め込みをビデオ領域へ適応させるためのオンライン増分学習を可能にする。
- 効果的な local-to-global 検索戦略を用いて長期追跡へ手法を拡張する。
提案手法
- 従来の Siamese 追跡特徴の限界を分析し、背景/デコイの不均衡を特定する。
- 検出データセットから多様なポジティブペアを作成し、同一/異なるカテゴリから意味的ネガティブペアを作成する。
- 視覚追跡に特化したデータ拡張を組み込み、モーションブラーを含む。
- distractor テンプレートで類似度を再重み付けする distractor-aware incremental learning モジュールを開発し(Equation 2/3)、オンライン更新を可能にする(Equation 4)。
- local-to-global 検索領域戦略とオンラインの故障検出スイッチを組み込み、長期追跡へ拡張する。
- クロス相関の性質を活用して、高速な distractor-aware 再ランキングを実現し、計算効率を高める。
実験結果
リサーチクエスチョン
- RQ1背景や背景に類似したデコイが Siamese トラッカーの表現と性能にどのような影響を与えるか?
- RQ2意味的ネガティブペアの追加と distractor-aware なオンライン更新が、速度を落とすことなく頑健性を向上させるか?
- RQ3オブザーヴァー条件外や遮蔽下で、local-to-global 検索戦略は長期追跡の性能を改善するか?
主な発見
- DaSiamRPN は短期および長期ベンチマークで顕著な改善を達成し、VOT2016 の EAO に対して相対 9.6% の gains、UAV20L では AUC に対して 61.7% を達成。
- DaSiamRPN は短期ベンチマークで 160 FPS、長期ベンチマークで 110 FPS で動作する。
- distractor-aware online モジュールは、一般的な埋め込みを現在のビデオ領域へ効果的に転送し、デコイに対する頑健性を向上させる。
- On UAV20L, DaSiamRPN outperforms the prior best tracker by relative 35.9% in AUC and 34.3% in precision.
- DaSiamRPN achieves first place in VOT2017 (EAO 0.326) among reported real-time trackers.
- The approach consistently improves over SiamRPN and other baselines across VOT, UAV, and OTB datasets.
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。