QUICK REVIEW

[論文レビュー] Target-Aware Deep Tracking

Xin Li, Chao Ma|arXiv (Cornell University)|Apr 3, 2019

Video Surveillance and Tracking Methods参考文献 50被引用数 31

ひとこと要約

本稿では、回帰損失および順序付け損失を用いて事前学習済み畳み込みニューラルネットワーク（CNN）から勾配に基づくフィルタ選択を活用することで、ターゲットに適応した深層特徴を提示する。この手法は、ターゲットに特化した識別性が高く、スケールに敏感なフィルタを特定し、OTB-2015、VOT-2015、Temple Color-128のデータセットにおいて、最先端の手法と比較して顕著に精度と速度が向上する。

ABSTRACT

Existing deep trackers mainly use convolutional neural networks pre-trained for generic object recognition task for representations. Despite demonstrated successes for numerous vision tasks, the contributions of using pre-trained deep features for visual tracking are not as significant as that for object recognition. The key issue is that in visual tracking the targets of interest can be arbitrary object class with arbitrary forms. As such, pre-trained deep features are less effective in modeling these targets of arbitrary forms for distinguishing them from the background. In this paper, we propose a novel scheme to learn target-aware features, which can better recognize the targets undergoing significant appearance variations than pre-trained deep features. To this end, we develop a regression loss and a ranking loss to guide the generation of target-active and scale-sensitive features. We identify the importance of each convolutional filter according to the back-propagated gradients and select the target-aware features based on activations for representing the targets. The target-aware features are integrated with a Siamese matching network for visual tracking. Extensive experimental results show that the proposed algorithm performs favorably against the state-of-the-art methods in terms of accuracy and speed.

研究の動機と目的

任意のターゲット形状とオブジェクト認識の欠如による事前学習済み深層特徴の視覚追尾における限界を解消する。
複雑な背景や干渉要因とを区別する能力が低い一般特徴の識別性の低さを克服する。
追尾に必要な最も関連性の高い畳み込みフィルタのみを選択することで、計算コストを低減する。
ターゲット特徴学習を通じて、外見の変化やスケール変化に対する追尾の頑健性を向上させる。
精度と推論速度の両面で既存の最先端手法を上回る、軽量でリアルタイム対応のトラッカーを開発する。

提案手法

分類ヘッドからのバックプロパゲーション勾配を用いて、各畳み込みフィルタがターゲットオブジェクトに対してどれほど重要であるかを特定する。
ソフトラベルをガウス関数から導出した特徴と一致させるために、ヘッジ回帰損失を適用し、ターゲット活性化を促進する。
ターゲットとネガティブサンプル間の特徴距離を比較することで、スケールに敏感な特徴を学習するためのペアワイズ順序付け損失を導入する。
両損失からの勾配の大きさに基づいて、最も重要なフィルタを選択し、コンactなターゲットに適応した特徴表現を構築する。
選択されたターゲットに適応した特徴をシアンプス追尾フレームワークに統合し、エンドツーエンドの追尾推論を実現する。
t-SNE可視化を活用して、事前学習済み特徴と比較して、ターゲットに適応した特徴のクラス間およびクラス内分離が向上していることを実証する。

実験結果

リサーチクエスチョン

RQ1事前学習済みCNNからの勾配に基づくフィルタ選択は、視覚追尾における特徴の識別性を向上させることができるか？
RQ2回帰損失と順序付け損失を併用することで、単独で使用する場合よりも優れたターゲットに適応した特徴学習が達成できるか？
RQ3ターゲットに適応した特徴は、計算コストを低減しつつも、追尾精度を維持または向上させることができるか？
RQ4実世界の追尾シナリオにおける外見の変化やスケール変化に対し、ターゲットに適応した特徴はどれほど効果的か？
RQ5標準的な事前学習済み特徴と比較して、ターゲットに適応した特徴は多様なベンチマークデータセットでどれほど性能向上をもたらすか？

主な発見

提案されたトラッカーは、OTB-2015でAUCスコア0.660を達成し、精度と速度の両面ですべての最先端手法を上回った。
Temple Color-128データセットでは、オンライン適応を用いずにAUCが0.562を達成し、リアルタイムトラッカーとして最高のスコアを記録した。
アブレーションスタディの結果、回帰損失のみを用いることで、ランダムなフィルタ選択と比較してAUCが+4.3%（Conv4-1）および+4.9%（Conv4-3）向上した。
回帰損失と順序付け損失を併用することで、OTB-2013で+1.8%、OTB-2015で+1.6%のAUC向上が得られ、相補的な利点が示された。
t-SNE可視化により、ターゲットに適応した特徴がクラス間およびクラス内分離が顕著に向上していることが裏付けられた。
トラッカーは33.7 FPSで動作し、複数のベンチマークで高い精度を維持しながらリアルタイム性能を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。