Skip to main content
QUICK REVIEW

[論文レビュー] Fully-Convolutional Siamese Networks for Object Tracking

Luca Bertinetto, Jack Valmadre|arXiv (Cornell University)|Jun 30, 2016
Video Surveillance and Tracking Methods参考文献 50被引用数 22
ひとこと要約

本論文では、ImageNet Videoでエンド・トゥ・エンドに訓練された、完全畳み込み型シアンズネットワークSiamFCを提案する。これは、オンラインモデル更新を伴わず、リアルタイムの推論を可能にする。単純であるにもかかわらず、VOT-15 や OTB-100 などの複数のベンチマークで最先端の性能を達成しており、100%のトレーニングデータを使用した場合、VOT-15 での期待オーバーラップは 0.274 である。

ABSTRACT

The problem of arbitrary object tracking has traditionally been tackled by learning a model of the object's appearance exclusively online, using as sole training data the video itself. Despite the success of these methods, their online-only approach inherently limits the richness of the model they can learn. Recently, several attempts have been made to exploit the expressive power of deep convolutional networks. However, when the object to track is not known beforehand, it is necessary to perform Stochastic Gradient Descent online to adapt the weights of the network, severely compromising the speed of the system. In this paper we equip a basic tracking algorithm with a novel fully-convolutional Siamese network trained end-to-end on the ILSVRC15 dataset for object detection in video. Our tracker operates at frame-rates beyond real-time and, despite its extreme simplicity, achieves state-of-the-art performance in multiple benchmarks.

研究の動機と目的

  • オンラインオンリーな外見モデリングの制限を克服し、任意のオブジェクトトラッキングにおけるモデル表現力の制限を解消する。
  • オンライン学習を伴わない高パフォーマンスのトラッキングを実現するため、オフライン段階で深層シアンズネットワークを事前学習する。
  • 完全畳み込み型シアンズネットワークを用いた類似度学習アプローチが、多様なトラッキングベンチマークにわたって強力な一般化を達成できることを示す。
  • ImageNet Video のような大規模な教師ありデータセットを用いることで、個々の動画に合わせた適応なしに、強力で汎用的なトラッカーを訓練可能であることを示す。
  • リアルタイム以上の速度で動作しながらも高い精度を維持する、高速で効率的かつ正確なトラッキングパイプラインを確立する。

提案手法

  • 同じ共有畳み込み特徴抽出器をエクジンプレ(テンプレート)と検索画像の両方に適用するシアンズネットワークアーキテクチャを用いる。
  • 検索画像に関して完全畳み込み型であり、特徴マップ間の相互相関を計算するバイリニア層を介して、スライディングウィンドウ評価を密に効率的に行える。
  • 類似度関数は、画像分類のための ILSVRC15 データセットでエンド・トゥ・エンドに訓練された完全畳み込み型シアンズネットワークとして実装される。
  • ネットワークの出力は、エクジンプレが検索画像の各空間位置に現れる可能性を示すスコアマップである。
  • 推論中にオンラインモデル更新やファインチューニングは一切行われず、事前学習後にネットワークは固定される。
  • トラッカーは最初のフレームの外見をエクジンプレとして用い、スコアマップ内で最も高いスコアを持つ位置をターゲット位置として選択する。

実験結果

リサーチクエスチョン

  • RQ1大規模データセット上でオフラインでエンド・トゥ・エンドに訓練された深層シアンズネットワークが、任意のオブジェクトトラッキングに対して強力な一般化を達成できるか?
  • RQ2完全畳み込み型シアンズアーキテクチャは、リアルタイムの推論を可能にしつつも高いトラッキング精度を維持できるか?
  • RQ3事前学習済みネットワークを用いた類似度学習アプローチは、個々の動画に合わせた適応を必要としないまま、オンライン学習ベースのトラッカーを上回ることができるか?
  • RQ4トレーニングデータセットのサイズが、標準ベンチマークにおける事前学習済みシアンズトラッカーの性能に与える影響は何か?
  • RQ5ImageNet Video で学習したトラッカーは、ALOV、OTB、VOT ベンチマークのドメインに効果的に一般化できるか?

主な発見

  • SiamFC は、ImageNet Video データセットの 100% を用いて学習した場合、VOT-15 ベンチマークで 0.274 の期待オーバーラップを達成し、多くの先行手法を大きく上回っている。
  • トラッカーはリアルタイムをはるかに超えるフレームレートで動作しており、実用的デプロイメントに適している。
  • オンラインモデル更新が一切ないにもかかわらず、SiamFC は困難なシーケンスにおいて動きぼけ、照明変化、スケール変化に対して強いロバスト性を示している。
  • トレーニングデータサイズが増加するにつれて性能が単調に向上し、VOT-15 では 5% のデータで 0.168 から 100% のデータで 0.274 まで上昇する。
  • SiamFC は、オンライン適応を用いる手法を含む大多数の最先端トラッカーを上回っているが、唯一リアルタイム速度を達成している。
  • ImageNet Video ドメインから ALOV/OTB/VOT ベンチマークドメインへの一般化が効果的に実現されており、その転送可能性が裏付けられている。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。