QUICK REVIEW

[論文レビュー] Describe and Attend to Track: Learning Natural Language guided Structural Representation and Visual Attention for Object Tracking

Xiao Wang, Chenglong Li|arXiv (Cornell University)|Nov 25, 2018

Video Surveillance and Tracking Methods参考文献 39被引用数 26

ひとこと要約

本稿では、自然言語記述とグラフ畳み込みネットワーク（GCN）を統合することで特徴表現と視覚的アテンションを向上させる、新しい視覚追跡フレームワークであるDAT（Describe and Attend to Track）を提案する。GCNを用いてトレーニングサンプル間の関係をモデル化し、言語誘導型トリプレット損失を用いることで、遮蔽や外見変化に対して高いロバスト性を発揮し、5つのベンチマークデータセットで最先端の性能を達成した。OTB2013では3層のGCNを用いた場合に67.1%の成功率を達成した。

ABSTRACT

The tracking-by-detection framework requires a set of positive and negative training samples to learn robust tracking models for precise localization of target objects. However, existing tracking models mostly treat different samples independently while ignores the relationship information among them. In this paper, we propose a novel structure-aware deep neural network to overcome such limitations. In particular, we construct a graph to represent the pairwise relationships among training samples, and additionally take the natural language as the supervised information to learn both feature representations and classifiers robustly. To refine the states of the target and re-track the target when it is back to view from heavy occlusion and out of view, we elaborately design a novel subnetwork to learn the target-driven visual attentions from the guidance of both visual and natural language cues. Extensive experiments on five tracking benchmark datasets validated the effectiveness of our proposed method.

研究の動機と目的

トレーニングサンプルを独立して扱う従来の検出ベース追跡手法の限界を是正し、サンプル間の関係性を無視しないこと。
視覚追跡における重度の遮蔽、大規模な変形、視界外状態に対してロバスト性を向上させること。
自然言語記述を高レベルの意味的スーパービジョンとして活用し、構造的特徴学習とアテンション生成をガイドすること。
追跡失敗後の再検出を効果的に行える、ターゲット駆動型グローバルアテンションメカニズムを設計すること。
局所的およびグローバルなプロポーザル生成戦略を統合し、追跡の精度とロバスト性を向上させること。

提案手法

各トレーニングサンプルをノードとするグラフを構築し、グラフ畳み込みネットワーク（GCN）を用いてサンプル間のペアワイズ関係特徴を伝搬・精錬する。
自然言語埋め込みを用いたトリプレット損失関数を用い、構造的表現の学習をガイドすることで、識別能を向上させる。
視覚パッチと自然言語仕様の両方を用いて、ターゲット固有の視覚的アテンションマップを生成する新規サブネットワークGPGNetを設計する。
グローバルアテンション領域からの特徴と局所的プロポーザルの特徴を連結し、それらをバイナリ分類器に供給して最終的な追跡意思決定を行う。
GCNに基づく構造的表現とアテンション誘導型プロポーザル生成を同時に最適化するエンドツーエンド学習スキームを採用する。
効率的な特徴抽出のための軽量な畳み込みエンコーダを用い、フレーム、言語、ターゲットパッチからの特徴を抽出・連結し、アップサンプリングすることでアテンションマップを生成する。

実験結果

リサーチクエスチョン

RQ1グラフ構造を用いてサンプル間の関係性をモデル化することで、視覚追跡特徴の識別力を向上させることができるか？
RQ2自然言語によるスーパービジョンが、遮蔽や外見変化といった困難な状況下での追跡モデルのロバスト性を向上させることができるか？
RQ3視覚的および言語的キューを組み合わせたターゲット駆動型視覚的アテンションが、ターゲット喪失後の再検出を効果的に改善できるか？
RQ4グローバルおよびローカル探索戦略の統合が、長期追跡ベンチマークにおける追跡性能に与える影響は何か？
RQ5視覚追跡において、精度と学習効率のバランスを最適化するためのGCN層の最適数は何か？

主な発見

3層のGCNを用いた場合、OTB2013ベンチマークで67.1%の成功率を達成し、ベースラインのpyMDNet（65.4%）および他の最先端手法を上回った。
外見が類似した干渉要因を含む46のOTB100シーケンスからなる困難なサブデータセットでは、91.8%の精度と65.2%の成功率を達成し、pyMDNet（86.5%精度、64.2%成功）を顕著に上回った。
3層のGCNを用いることで、性能と学習時間のバランスが最良となり、OTB2013での成功率は0.663を記録した。これは2層（0.654）よりわずかに高く、5層（0.671）と同等の性能を達成した。
言語誘導型トリプレット損失とGCNに基づく構造的モデリングの統合により、特にハードなポジティブおよびネガティブサンプルの処理において顕著な性能向上が得られた。
ターゲット駆動型グローバルアテンションメカニズムは、重度の遮蔽や視界外イベント後にもターゲットを効果的に回復させることができ、長期追跡シーケンスでの性能向上が実証された。
提案されたGPGNetサブネットワークは、一般のサリエンシーマップとは異なり、動画固有のアテンションマップを効果的に生成し、ターゲットオブジェクトに焦点を当てることができた。これにより、効果的なグローバルプロポーザル生成が可能になった。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。