Skip to main content
QUICK REVIEW

[論文レビュー] End-to-end Flow Correlation Tracking with Spatial-temporal Attention

Zheng Zhu, Wei Wu|arXiv (Cornell University)|Nov 3, 2017
Video Surveillance and Tracking Methods参考文献 41被引用数 26
ひとこと要約

本稿では、光流推定、特徴抽出、相関フィルタトラッキングを統合したエンドツーエンドのディーブラーニングフレームワーク、FlowTrackを提案する。流れに従って空間変換を行い、歴史的特徴マップをワープし、新規の空間的・時系列的アテンションメカニズムを用いて適応的に統合することで、特徴表現を向上させ、OTB2013、OTB2015、VOT2015、VOT2016で最先端の性能を達成した。VOT2015およびVOT2016ではEAOで1位を獲得し、12 FPSで実行可能である。

ABSTRACT

Discriminative correlation filters (DCF) with deep convolutional features have achieved favorable performance in recent tracking benchmarks. However, most of existing DCF trackers only consider appearance features of current frame, and hardly benefit from motion and inter-frame information. The lack of temporal information degrades the tracking performance during challenges such as partial occlusion and deformation. In this work, we focus on making use of the rich flow information in consecutive frames to improve the feature representation and the tracking accuracy. Firstly, individual components, including optical flow estimation, feature extraction, aggregation and correlation filter tracking are formulated as special layers in network. To the best of our knowledge, this is the first work to jointly train flow and tracking task in a deep learning framework. Then the historical feature maps at predefined intervals are warped and aggregated with current ones by the guiding of flow. For adaptive aggregation, we propose a novel spatial-temporal attention mechanism. Extensive experiments are performed on four challenging tracking datasets: OTB2013, OTB2015, VOT2015 and VOT2016, and the proposed method achieves superior results on these benchmarks.

研究の動機と目的

  • 現在のフレームの外見にのみ依存する従来の分類的相関フィルタ(DCF)トラッカーの限界を解消するため、時間的動きの手がかりを無視している点を是正する。
  • 部分的遮蔽、変形、照明変化などの困難なトラッキング状況における耐性を、光流を活用することで向上させる。
  • 従来の方法で使用されるオフザシェルフの流れ特徴が最適でない問題を克服するため、光流推定とトラッキングの両方を統合的にエンドツーエンドで学習可能にする。
  • 動きに従ってワープし、アテンションを用いて複数フレームからの特徴を統合する適応的特徴集約メカニズムを構築する。
  • 流れとトラッキング部の統合的で微分可能な学習により、優れたトラッキング精度と耐性を実現する。

提案手法

  • エンドツーエンド学習を可能にするために、光流推定、特徴抽出、特徴集約、相関フィルタトラッキングを深層ニューラルネットワーク内の学習可能なレイヤーとして定式化する。
  • 光流を用いて、歴史的特徴マップを現在のフレームの空間座標にワープし、動きに整合した特徴統合を実現する。
  • 時間的・空間的特徴マップの重み付けを適応的に行う、新規の空間的・時系列的アテンションメカニズムを導入する。
  • 空間アテンションで関連領域に注目し、時系列アテンションで情報量の多い過去のフレームを優先することで、特徴表現を向上させる。
  • 大規模なトラッキングデータセットを用いて、流れとトラッキングの両ブランチを共同最適化するマルチステージネットワークアーキテクチャを採用する。
  • 標準的なトラッキング損失関数を用いて、流れの正確さとトラッキングパフォーマンスの両方を共同最適化できるように、システム全体をエンドツーエンドで学習する。

実験結果

リサーチクエスチョン

  • RQ1パイプライン処理や固定流れアプローチと比較して、光流と視覚的トラッキングのエンドツーエンドで統合的な学習を実施することで、トラッキングの耐性と精度が向上するか?
  • RQ2光流に基づく動きに従う特徴ワープは、オブジェクトトラッキングにおける複数フレーム間の特徴を整列させるためにどの程度有効か?
  • RQ3空間的・時系列的アテンションメカニズムは、複数フレームからの関連特徴を適応的に選択することで、特徴統合を向上させるか?
  • RQ4提案されたフレームワークは、OTB2013、OTB2015、VOT2015、VOT2016といった標準ベンチマークで最先端のトラッカーを上回るか?
  • RQ5エンドツーエンド学習と固定流れネットワークの両者において、トラッキングパフォーマンスへの寄与度は何か?

主な発見

  • OTB2013では、FlowTrackはAUC 0.689を達成し、流れを使用しないベースライン(0.625)および他のバリエーションを著しく上回った。
  • OTB2015では、FlowTrackはAUC 0.655を達成し、評価されたすべての手法の中で最高のパフォーマンスを記録した。
  • VOT2015では、FlowTrackはEAOスコア0.3405を達成し、70のトラッカーの中で1位となり、12 FPSの推論速度を達成した。
  • VOT2016では、FlowTrackはEAO 0.3342を達成し、EAOで1位、耐性で2位を記録し、優れた一般化性能を示した。
  • アブレーションスタディの結果、VOT2015およびVOT2016においてエンドツーエンド学習(FlowTr)は、固定流れ(fix flow)よりもEAOで8%以上優れていた。
  • 空間的・時系列的アテンションメカニズムは顕著な貢献を示しており、時系列アテンションを削除した場合(no_ta)は、完全モデルと比較してEAOがほぼ8%低下した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。