QUICK REVIEW

[論文レビュー] Siamese Cascaded Region Proposal Networks for Real-Time Visual Tracking

Heng Fan, Haibin Ling|arXiv (Cornell University)|Dec 14, 2018

Video Surveillance and Tracking Methods参考文献 45被引用数 28

ひとこと要約

本論文では、シアンズネットワーク内の複数の特徴レベルに跨る複数のRPNを段階的に連結することで、精度とロバスト性を向上させるマルチステージの視覚追跡フレームワークである、シアンズ型段階的領域提案ネットワーク（C-RPN）を提案する。段階的ハードネガティブサンプリング、特徴転送ブロック（FTB）によるマルチレベル特徴の活用、および適応的アングルを用いた段階的回帰により、C-RPNは6つのベンチマークで最先端の性能を達成するとともに、約32 fpsでリアルタイム動作を実現する。

ABSTRACT

Region proposal networks (RPN) have been recently combined with the Siamese network for tracking, and shown excellent accuracy with high efficiency. Nevertheless, previously proposed one-stage Siamese-RPN trackers degenerate in presence of similar distractors and large scale variation. Addressing these issues, we propose a multi-stage tracking framework, Siamese Cascaded RPN (C-RPN), which consists of a sequence of RPNs cascaded from deep high-level to shallow low-level layers in a Siamese network. Compared to previous solutions, C-RPN has several advantages: (1) Each RPN is trained using the outputs of RPN in the previous stage. Such process stimulates hard negative sampling, resulting in more balanced training samples. Consequently, the RPNs are sequentially more discriminative in distinguishing difficult background (i.e., similar distractors). (2) Multi-level features are fully leveraged through a novel feature transfer block (FTB) for each RPN, further improving the discriminability of C-RPN using both high-level semantic and low-level spatial information. (3) With multiple steps of regressions, C-RPN progressively refines the location and shape of the target in each RPN with adjusted anchor boxes in the previous stage, which makes localization more accurate. C-RPN is trained end-to-end with the multi-task loss function. In inference, C-RPN is deployed as it is, without any temporal adaption, for real-time tracking. In extensive experiments on OTB-2013, OTB-2015, VOT-2016, VOT-2017, LaSOT and TrackingNet, C-RPN consistently achieves state-of-the-art results and runs in real-time.

研究の動機と目的

類似する干渉要因や大規模なスケール変化に対処する能力に欠けるワンステージのシアンズ-RPNトラッカーの限界を解消する。
段階的ハードネガティブサンプリングを用いた段階的RPNの連結により、トレーニングにおけるクラス不均衡を低減する。
複数段階の回帰ステップと調整されたアングルを用いることで、境界ボックスの逐次的精錬により局所化精度を向上させる。
新規の特徴転送ブロック（FTB）を用いて、高レベルの意味的特徴と低レベルの空間的特徴を統合することで、特徴表現を強化する。
時間的適応なしにエンドツーエンドで訓練されたキャスケード全体を直接推論に使用することで、リアルタイム推論を実現する。

提案手法

シアンズネットワーク内の深層（高レベル）から浅層（低レベル）の層へと段階的に複数のRPNを連結し、マルチステージの追跡パイプラインを構築する。
各RPNを、直前の段階の出力からフィルタリングされたハードネガティブサンプルのみを用いてトレーニングすることで、段階的学習による識別的分類器の学習を可能にする。
複数のレイヤーに跨る特徴を統合する特徴転送ブロック（FTB）を導入し、意味的および空間的情報を併用することで識別性を向上させる。
複数ステップの回帰を採用：各RPNは、直前の段階の出力から調整されたアングルボックスを用いて、ターゲットの提案領域を精錬する。
全段階にわたる分類と回帰の損失を統合したエンドツーエンドのマルチタスク損失関数を採用する。
トレーニング済みのC-RPNモデルを、オンライン適応なしに直接推論に使用することで、リアルタイム性能を確保する。

実験結果

リサーチクエスチョン

RQ1段階的RPNアーキテクチャは、ワンステージのシアンズ-RPNと比較して、類似する干渉要因に対してより高いロバスト性を示すか？
RQ2段階的ハードネガティブサンプリングは、クラス不均衡の低減と困難なバックグラウンドサンプルの識別性向上に寄与するか？
RQ3特徴転送ブロック（FTB）によるマルチレベル特徴統合は、意味的および空間的情報を組み合わせることで追跡精度を向上させるか？
RQ4適応的アングルを用いた段階的回帰は、大規模なスケール変化下でも局所化精度を向上させるか？
RQ5段階的設計は、最先端の性能を達成しつつも、リアルタイム推論速度を維持できるか？

主な発見

C-RPNは、OTB-2013、OTB-2015、VOT-2016、VOT-2017、LaSOT、TrackingNetの6つのベンチマークで最先端の性能を達成し、従来手法に比して一貫した向上を示す。
LaSOTでは、プロトコルIIにおいて成功スコアが0.455を達成し、2番目に優れたトラッカーをSUCで1.6%、VOT-2017のEAOで0.7%上回る。
TrackingNetでは、精度スコアが0.619、正規化精度が0.746、成功スコアが0.669を達成し、2番目に優れたMDNetをそれぞれ5.4%、4.1%、6.3%上回る。
アブレーションスタディの結果、各構成要素が顕著な寄与を示している：段階の追加によりSUCが2.9%（0.417 → 0.446）、EAOが3.5%（0.248 → 0.283）向上する。
ネガティブアングルのフィルタリングを削除すると、SUCが1.6%、EAOが0.7%低下し、ハードネガティブサンプリングの重要性が裏付けられる。
特徴転送ブロック（FTB）を導入することで、SUCが1.3%、EAOが1.1%向上し、マルチレベル特徴統合の有効性が実証される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。