Skip to main content
QUICK REVIEW

[論文レビュー] Learning Dynamic Memory Networks for Object Tracking

Tianyu Yang, Antoni B. Chan|arXiv (Cornell University)|Mar 20, 2018
Video Surveillance and Tracking Methods被引用数 28
ひとこと要約

本稿では、LSTM制御外部メモリブロックを備えた動的メモリネットワークを用いて、外見変化に適応的にテンプレートを更新するリアルタイム視覚オブジェクトトラッカー、MemTrackを提案する。アテンションベースのメモリアクセスとチャネル別ゲート付き残差学習を採用することで、OTBおよびVOTベンチマークで最先端の精度を達成しながらも、50 fpsの推論速度を維持し、リアルタイムおよび非リアルタイムトラッカーを上回る性能を発揮する。

ABSTRACT

Template-matching methods for visual tracking have gained popularity recently due to their comparable performance and fast speed. However, they lack effective ways to adapt to changes in the target object's appearance, making their tracking accuracy still far from state-of-the-art. In this paper, we propose a dynamic memory network to adapt the template to the target's appearance variations during tracking. An LSTM is used as a memory controller, where the input is the search feature map and the outputs are the control signals for the reading and writing process of the memory block. As the location of the target is at first unknown in the search feature map, an attention mechanism is applied to concentrate the LSTM input on the potential target. To prevent aggressive model adaptivity, we apply gated residual template learning to control the amount of retrieved memory that is used to combine with the initial template. Unlike tracking-by-detection methods where the object's information is maintained by the weight parameters of neural networks, which requires expensive online fine-tuning to be adaptable, our tracker runs completely feed-forward and adapts to the target's appearance changes by updating the external memory. Moreover, unlike other tracking methods where the model capacity is fixed after offline training --- the capacity of our tracker can be easily enlarged as the memory requirements of a task increase, which is favorable for memorizing long-term object information. Extensive experiments on OTB and VOT demonstrates that our tracker MemTrack performs favorably against state-of-the-art tracking methods while retaining real-time speed of 50 fps.

研究の動機と目的

  • トラッキング中にオブジェクトの外見変化に適応できないテンプレートマッチングトラッカーの限界を解消すること。
  • オンラインファインチューニングの必要性を排除するために、外部の動的メモリブロックに外見情報を保存すること。
  • メモリサイズの増加によりモデル容量をスケーラブルに拡大し、長期的な外見モデリングを可能にすること。
  • SiamFCのようなベースラインテンプレート手法よりも精度を向上させつつ、リアルタイム性能を損なわないこと。
  • 初期テンプレートの信頼性と適応的メモリリtrievalを統合した微分可能でエンドツーエンド学習可能なフレームワークを構築すること。

提案手法

  • 外部アドレス指定可能なメモリブロックが、ターゲットの歴史的外見特徴を格納し、外見変化の長期的記憶を可能にする。
  • LSTMコントローラーは、サーチ特徴マップを入力とし、メモリアクセスの前に潜在的なターゲット領域に注目するためのアテンション機構を用いる。
  • LSTMは、メモリブロックへの読み取りおよび書き込みの制御信号を生成し、動的テンプレート適応を可能にする。
  • ゲート付き残差テンプレート学習機構により、初期テンプレートとメモリベースの残差テンプレートが組み合わされ、チャネル別ゲートがメモリの寄与度を制御する。
  • 最終的なマッチングテンプレートは、初期テンプレートとゲート付き残差の要素ごとの加算によって形成され、保守的な外見情報が保持される。
  • ネットワーク全体が微分可能であり、SGDを用いたエンドツーエンド学習が可能で、オンラインパrameter更新なしにリアルタイム推論が実現される。

実験結果

リサーチクエスチョン

  • RQ1オンラインファインチューニングなしに、動的メモリネットワークが外見変化に適応してトラッキングテンプレートを更新できるか。
  • RQ2グランドトゥルースのターゲット位置が不明な状況下で、アテンションベースのメモリアクセスはテンプレートマッチングをどのように向上させるか。
  • RQ3ゲート付き残差学習は、最近のフレームへの過学習をどの程度防ぎつつ、適応的テンプレート更新を可能にするか。
  • RQ4モデルの複雑さを増加させずに、メモリ容量を拡大することで長期トラッキング性能を向上させられるか。
  • RQ5最先端のリアルタイムおよび非リアルタイムトラッカーと比較して、提案手法の精度と速度はどの程度優れているか。

主な発見

  • OTB-2015ベンチマークにおいて、MemTrackはSiamFCよりも精度が6.4%高く、成功率が7.6%高い。
  • VOT-2016データセットでは、MemTrackはSOTAのEAO基準(0.251)を超えるEAO 0.2729を達成し、リアルタイムトラッカーの中で1位となった。
  • AUCスコアにおいて、非リアルタイムSOTAトラッカー(CREST、MCPF、SRDCFdecon)を上回りながらも、50 fpsで動作する一方、それらは約1 fpsで動作する。
  • 低解像度、遮蔽、スケール変化といった困難な属性において、MemTrackは最高のAUCスコアを記録し、低解像度シーケンスではSiamFCよりも10.7%の改善を達成した。
  • OTB-2015の全8つの属性(照度変化、運動ブラー、平面内・平面外回転など)において、MemTrackは一貫した高い性能を維持した。
  • アブレーションスタディでは、アテンション、ゲート付き残差学習、メモリ制御の組み合わせが、アブレーション変種と比較して顕著にトラッキング精度を向上させた。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。