Skip to main content
QUICK REVIEW

[論文レビュー] Modeling and Propagating CNNs in a Tree Structure for Visual Tracking

Hyeonseob Nam, Mooyeol Baek|arXiv (Cornell University)|Aug 25, 2016
Video Surveillance and Tracking Methods参考文献 33被引用数 295
ひとこと要約

本論文はTCNNを提案する。オンライン視覚追跡法で、ツリー構造の中に複数のCNNベースのターゲット外観モデルを保持する。モデルはツリーパスに沿って更新され、外観変化や遮蔽下でターゲット状態を頑健に推定するために組み合わせられる。

ABSTRACT

We present an online visual tracking algorithm by managing multiple target appearance models in a tree structure. The proposed algorithm employs Convolutional Neural Networks (CNNs) to represent target appearances, where multiple CNNs collaborate to estimate target states and determine the desirable paths for online model updates in the tree. By maintaining multiple CNNs in diverse branches of tree structure, it is convenient to deal with multi-modality in target appearances and preserve model reliability through smooth updates along tree paths. Since multiple CNNs share all parameters in convolutional layers, it takes advantage of multiple models with little extra cost by saving memory space and avoiding redundant network evaluations. The final target state is estimated by sampling target candidates around the state in the previous frame and identifying the best sample in terms of a weighted average score from a set of active CNNs. Our algorithm illustrates outstanding performance compared to the state-of-the-art techniques in challenging datasets such as online tracking benchmark and visual object tracking challenge.

研究の動機と目的

  • オンライン視覚追跡における外観変化、遮蔽、追跡失敗に対処する。
  • 過度な計算量を避けつつ、多様性(モーダリティ)に対処するために、複数のCNNベースの外観モデルを活用する。
  • 畳み込みパラメータを共有しつつ、ツリーパスに沿ってモデルを更新して信頼性の高いオンライン更新を実現する。

提案手法

  • 事前学習済みネットワークから初期化され、オンラインで微調整されるCNNを用いてターゲット外観を表現する。
  • CNNをツリー構造に保持し、エッジがモデル間のアフィニティを符号化する。最良パスに沿って更新する。
  • 活性化されたCNNのスコアを重み付きで集約してターゲット状態を推定する。重みはアフィニティとモデルの信頼性に依存する。
  • 局在化を鋭化するための境界ボックス回帰ステップを導入する。
  • 複数のモデルがあるにも関わらず、メモリと計算量を抑えるためにCNN間で畳み込み層を共有する。
  • 1フレームあたり256個のサンプル候補を使用し、ラベル付きの陽性/陰性サンプルで SGD によってCNNを訓練する。

実験結果

リサーチクエスチョン

  • RQ1オンライン追跡における多モーダルなターゲット外観への頑健性を、ツリー構造のCNNアンサンブルは改善できるか。
  • RQ2信頼性を最大化しドリフトを最小化するために、CNNネットワーク間でオンライン更新をどのように割り当てるべきか。
  • RQ3複数のCNNを維持する際、畳み込み層を共有することがメモリと速度に与える影響は何か。
  • RQ4CNNベースのトラッカーにおいて境界ボックス回帰は局在精度を改善するか。

主な発見

指標Linear_singleLinear_meanTree_meanTree_maxTCNN
Precision (%)89.692.092.892.093.7
成功率 (%)85.886.986.887.087.9
AUC (%)65.867.267.467.268.2
  • TCNNはOTB50およびOTB100のベンチマークにおいて、精度とAUCで最先端の追跡アルゴリズムを上回る。
  • アブレーション研究は、複数モデル(Linear_mean対Single)とツリー構造更新(Tree_mean対Linear_mean)の利点を示す。
  • 境界ボックス回帰はCNNベースの追跡の局在品質を向上させる。
  • ツリーベースのメンテナンスは複数の信頼できるパスを維持し、遮蔽や外観変化に対処するのを助ける。
  • VOT2015では、TCNNはCNNベースおよび強力な非CNN追跡器の中で最良または競争力のある精度と頑健性を達成している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。