QUICK REVIEW

[論文レビュー] Learning Policies for Adaptive Tracking with Deep Feature Cascades

Chen Huang, Simon Lucey|arXiv (Cornell University)|Aug 9, 2017

Video Surveillance and Tracking Methods参考文献 35被引用数 47

ひとこと要約

本論文は、推論中に特徴層の処理をいつ停止するかを決定するために強化学習を用いる、EAST（EArly-Stopping Tracker）という適応型ディープ追跡フレームワークを提案する。容易なフレームでは高コストなディープ特徴をスキップすることで、CPU上で23.2 fpsのほぼリアルタイムの速度を達成し、最先端の精度を実現した。50%のフレームで推論コストを最大100倍まで削減しながら、OTBおよびVOTベンチマークで高い性能を維持した。

ABSTRACT

Visual object tracking is a fundamental and time-critical vision task. Recent years have seen many shallow tracking methods based on real-time pixel-based correlation filters, as well as deep methods that have top performance but need a high-end GPU. In this paper, we learn to improve the speed of deep trackers without losing accuracy. Our fundamental insight is to take an adaptive approach, where easy frames are processed with cheap features (such as pixel values), while challenging frames are processed with invariant but expensive deep features. We formulate the adaptive tracking problem as a decision-making process, and learn an agent to decide whether to locate objects with high confidence on an early layer, or continue processing subsequent layers of a network. This significantly reduces the feed-forward cost for easy frames with distinct or slow-moving objects. We train the agent offline in a reinforcement learning fashion, and further demonstrate that learning all deep layers (so as to provide good features for adaptive tracking) can lead to near real-time average tracking speed of 23 fps on a single CPU while achieving state-of-the-art performance. Perhaps most tellingly, our approach provides a 100X speedup for almost 50% of the time, indicating the power of an adaptive approach.

研究の動機と目的

リソース制約のあるデバイスにおいて、精度と速度のトレードオフを解消すること。
フレームごとの複雑さに応じて、容易なフレームでは少ない特徴で済ませることで、ディープトラッカーの計算コストを低減すること。
どの段階のネットワーク層で停止するかを決定する適応的決定ポリシーを学習すること。
特にCPU上で顕著な推論速度の向上を実現しながら、高い精度を維持すること。
知的な早期停止により、フィードフォワードコストを最小限に抑えることで、組み込みシステムでもリアルタイム追跡を可能にすること。

提案手法

オブジェクト定位に最適な特徴層を選択するための順次意思決定プロセスとして、適応的トラッキングを強化学習を用いて定式化する。
「ゼロ番目」の層として生ピixeL値を使用する複数層の特徴カスケードを構築し、早期停止を可能にする。
応答マップの信頼性に基づいて、現在の層で予測を出力するか、次の層に進むかを決定するため、事前学習段階でエージェントを強化学習で訓練する。
早期層での応答マップを高速に計算するために、フーリエ処理を用いた相関フィルタを採用し、推論を加速する。
各層がトラッキング精度と早期停止の利便性の両方を最適化するように、エンドツーエンドで訓練する。深層監督に類似したアプローチである。
テスト段階で学習済みポリシーを適用し、不要な順方向伝搬をスキップすることで、容易なフレームにおける計算コストを削減する。

実験結果

リサーチクエスチョン

RQ1強化学習エージェントは、オブジェクト追跡の過程でディープネットワーク内の特徴処理をいつ停止すべきかを適切に判断できるか？
RQ2学習済みポリシーに基づく適応的早期停止は、追跡精度を損なわずに顕著な高速化を実現できるか？
RQ3本手法は、CPU上でほぼリアルタイムの性能を達成しながら、標準ベンチマークで最先端の精度を維持できるか？
RQ4速度-精度トレードオフの観点から、固定深度のディープトラッカーおよび浅い相関フィルタ手法と比較して、本手法の性能はどの程度優れているか？
RQ5容易なフレームは早期停止によってどの程度恩恵を受けるか？また、ポリシーは多様な追跡シナリオに一般化可能か？

主な発見

EASTは単一のCPU上で平均23.2 fpsを達成し、ほぼリアルタイムであり、大多数のディープトラッカーと比べて顕著に高速である。
約50%のフレームで100倍の高速化が達成され、容易なフレームに対する適応的処理の有効性が裏付けられた。
OTB-100ベンチマークではAUCスコアが0.629を達成し、最先端に近い性能を示したが、トップパフォーマンストラッカーの中で最も速い。
VOT-15ベンチマークではCPUで21 fps、GPUで148 fpsを達成し、MDNetより148倍の高速化を実現しながら、同等の精度を維持した。
VOT-14コンテストでは、精度と速度のバランスを最適化し、38の他のトラッカーを上回る最良の総合順位を獲得した。
強化学習で学習したポリシーは、ヒューリスティックなしきい値設定や固定層選択機構よりもより頑健であり、優れた性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。