QUICK REVIEW

[論文レビュー] Spatially Supervised Recurrent Convolutional Neural Networks for Visual Object Tracking

Guanghan Ning, Zhi Zhang|arXiv (Cornell University)|Jul 19, 2016

Video Surveillance and Tracking Methods参考文献 17被引用数 37

ひとこと要約

本稿では、視覚的特徴と時間的位置履歴を統合的にモデル化する空間的監視付き再帰的畳み込みニューラルネットワーク、ROLOを提案する。LSTMを用いて深層特徴から端末に境界ボックスを回帰することで、計算コストを低く抑えながら、ベンチマークデータセット上で最先端の精度と頑丈さを達成し、大多数のシーケンスで先行手法を大きく上回る性能を発揮する。

ABSTRACT

In this paper, we develop a new approach of spatially supervised recurrent convolutional neural networks for visual object tracking. Our recurrent convolutional network exploits the history of locations as well as the distinctive visual features learned by the deep neural networks. Inspired by recent bounding box regression methods for object detection, we study the regression capability of Long Short-Term Memory (LSTM) in the temporal domain, and propose to concatenate high-level visual features produced by convolutional networks with region information. In contrast to existing deep learning based trackers that use binary classification for region candidates, we use regression for direct prediction of the tracking locations both at the convolutional layer and at the recurrent unit. Our extensive experimental results and performance comparison with state-of-the-art tracking methods on challenging benchmark video tracking datasets shows that our tracker is more accurate and robust while maintaining low computational cost. For most test video sequences, our method achieves the best tracking performance, often outperforms the second best by a large margin.

研究の動機と目的

領域スコアリングに二値分類に依存する既存のディーブラーニングトラッカーの限界を解消すること。
空間的・時間的文脈を統合することで、遮蔽、運動ぼかし、外観変化といった深刻な挑戦に耐えうる追跡の頑丈さを向上させること。
高レベルの視覚的特徴と履歴追跡位置の両方を活用して、より優れた局所化を実現するエンド・ツー・エンドで学習可能なモデルを開発すること。
部分領域分類を避けるために、深層特徴に対するLSTMの回帰能力を活用し、直接境界ボックスを予測すること。
空間的監視と時間的記憶を活用することで、強力な一般化能力を備えた効率的でリアルタイムの追跡を可能にすること。

提案手法

モデルは入力フレームから豊富な高レベル視覚的特徴を抽出するためYOLOを用い、それをLSTMに供給して時間的モデリングを実施する。
各時刻で視覚的特徴と空間的位置情報（境界ボックス座標またはヒートマップ）を連結することで、空間的監視を可能にする。
LSTMは勾配ベースの誤差逆伝播を用いて、領域分類ではなく直接位置を予測するエンド・ツー・エンドの回帰を実行する。
モデルは時間的系列全体を通じて物体位置の予測誤差を最小化するように学習され、外観と運動ダイナミクスの両方をモデル化する。
システムは追跡を条件付き確率の系列に分解する：p(B_t | B_<t, X_≤t)，ここでB_tは時刻tにおける物体の位置を表す。
LSTMの回帰をガイドするために、真値位置またはヒートマップを特徴と連結することで、空間的監視を実装する。

実験結果

リサーチクエスチョン

RQ1エンド・ツー・エンドの回帰を用いて、LSTMベースの再帰的ネットワークは視覚的追跡における空間的・時間的依存関係を効果的にモデル化できるか？
RQ2座標またはヒートマップの連結による空間的監視は、深層特徴に基づく追跡の精度と頑丈さを向上させるか？
RQ3履歴位置と深層視覚的特徴を統合したアプローチは、二値分類ベースのトラッカーと比較して、遮蔽や運動ぼかしの処理において優れているか？
RQ4限定的な動的特性での学習が、未観測の動画シーケンスに一般化される程度はどの程度か？
RQ5高い性能を達成しながらも、計算コストを低く抑え、リアルタイムの推論を維持できるか？

主な発見

ROLOはOTB-30ベンチマークの大多数のテストシーケンスで最高の性能を達成し、2番目に良い手法と比較して大きな差をつける。
OPE（ワンパス評価）におけるOTB-30データセット上でのAUCは0.793に達し、ベースライン手法を顕著に上回る。
真値ラベルが1/3のフレームに限定されたデータで学習させた場合でも、モデルは良好に一般化され、全フレームで性能が向上する。これは強力な一般化能力を示している。
追加の真値アノテーションなしに、学習フレーム数を増やすことで性能が向上する。これは、時間的ダイナミクスが限定的なデータから学習可能であることを示している。
モデルは低コストの計算を維持し、さまざまなステップサイズにおいて一貫したfpsとIOUスコアを示しており、リアルタイム推論を達成している。
アブレーションスタディの結果、空間的監視付きの直接回帰が、補助分類器やドロップアウトベースの正則化を用いる手法を上回る性能を発揮している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。