Skip to main content
QUICK REVIEW

[論文レビュー] Siamese Instance Search for Tracking

Ran Tao, Efstratios Gavves|arXiv (Cornell University)|May 19, 2016
Video Surveillance and Tracking Methods参考文献 49被引用数 143
ひとこと要約

外部動画から一般的なパッチマッチング関数を学習する事前学習済みSiameseネットワークを用い、後続フレームで初期ターゲットを位置づけるために更新を行わない単純なトラッカーに適用する追跡手法。モデル更新や遮蔽処理を伴わず、OTBで最先端の性能を達成する。

ABSTRACT

In this paper we present a tracker, which is radically different from state-of-the-art trackers: we apply no model updating, no occlusion detection, no combination of trackers, no geometric matching, and still deliver state-of-the-art tracking performance, as demonstrated on the popular online tracking benchmark (OTB) and six very challenging YouTube videos. The presented tracker simply matches the initial patch of the target in the first frame with candidates in a new frame and returns the most similar patch by a learned matching function. The strength of the matching function comes from being extensively trained generically, i.e., without any data of the target, using a Siamese deep neural network, which we design for tracking. Once learned, the matching function is used as is, without any adapting, to track previously unseen targets. It turns out that the learned matching function is so powerful that a simple tracker built upon it, coined Siamese INstance search Tracker, SINT, which only uses the original observation of the target from the first frame, suffices to reach state-of-the-art performance. Further, we show the proposed tracker even allows for target re-identification after the target was absent for a complete video shot.

研究の動機と目的

  • 追跡で一般的な外観変化を扱う、外部動画データから汎用で頑健なパッチマッチング関数を学習する。
  • 各ターゲットごとの適応を行わず、初期フレームのターゲットを用いた単純な追跡推論を開発する。
  • 十分に訓練されたマッチング関数が、競争力のあるまたは最先端の追跡性能を満たすことをデモンストレーションする。
  • 動画内の不在後のターゲット再同定をこのアプローチがサポートすることを示す。

提案手法

  • 二流のSiameseネットワーク(Siamese Invariance Network)を用いてパッチの汎用マッチング関数を学習する。
  • 領域内プーリングを用いて全画像を処理し、複数の候補パッチを効率的に比較する。
  • 複数のCNNレイヤーからの特徴を融合し、表現を安定化させるためにロス前にL2正規化を適用する。
  • マージンコントラスト損失 D = ||f(x_j) - f(x_k)||_2, y_jk ∈ {0,1}, およびマージン ε を用いて、評価データと重複のない外部動画データ(ALOV)で学習する。
  • 前のフレーム予測の周囲に候補ボックスを生成する半径ベースのサンプリングを用い、固定回帰器でボックス精練を実施する。
  • m(x_t0, x_jt) = f(x_t0)^T f(x_jt) を用いて初期フレームのターゲットと最もよく一致する候補パッチを選択して追跡する。

実験結果

リサーチクエスチョン

  • RQ1外部動画で学習した汎用的なパッチマッチング関数は、オンライン適応なしで未知のターゲットを堅牢に追跡できるか?
  • RQ2単純で更新を行わないトラッカーと組み合わせた場合、Siameseネットワークベースのマッチング関数はフレーム間の正確な局所化に十分か?
  • RQ3ターゲット特定の更新なしで追跡精度を最大化する設計選択(深さ、プーリング、多層特徴)とは何か?
  • RQ4このアプローチは長期欠如後のターゲット再識別をサポートできるか?
  • RQ5OTB のような標準ベンチマークで、提案手法は現代のトラッカーとどう比較されるか?

主な発見

  • 外部データで訓練されたSiameseネットワークは、追跡マッチング関数のImageNet事前訓練ベースラインより有意に改善する。
  • 最大プーリングを削除し、より深いネットワークでマルチレイヤー特徴(conv4/conv5/fc6)を用いると、最も良い局在化と精度を得られる。
  • SINTは、単純なオンライン推論でOTBで最先端の性能を達成し、SINT+は適応サンプリングと光学フローでさらに改善する。
  • この手法は、長いビデオ列におけるターゲット欠如後の堅牢な再識別を示す。
  • 外部のYouTubeシークエンスでは、SINTがMEEMおよびMUSTerをAUCスコアで上回り、難しい歪みへの強い一般化を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。