Skip to main content
QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning for Visual Object Tracking in Videos

Da Zhang, Hamid Reza Maei|arXiv (Cornell University)|Jan 31, 2017
Video Surveillance and Tracking Methods参考文献 54被引用数 101
ひとこと要約

この論文は、CNN、RNN(LSTM)、および強化学習を組み合わせたエンドツーエンドの Deep RL Tracker を提案し、ビデオフレーム全体でターゲットオブジェクトの境界ボックスを予測する。OTBで最先端の結果を達成し、リアルタイムまたはそれより高速な性能を実現する。

ABSTRACT

In this paper we introduce a fully end-to-end approach for visual tracking in videos that learns to predict the bounding box locations of a target object at every frame. An important insight is that the tracking problem can be considered as a sequential decision-making process and historical semantics encode highly relevant information for future decisions. Based on this intuition, we formulate our model as a recurrent convolutional neural network agent that interacts with a video overtime, and our model can be trained with reinforcement learning (RL) algorithms to learn good tracking policies that pay attention to continuous, inter-frame correlation and maximize tracking performance in the long run. The proposed tracking algorithm achieves state-of-the-art performance in an existing tracking benchmark and operates at frame-rates faster than real-time. To the best of our knowledge, our tracker is the first neural-network tracker that combines convolutional and recurrent networks with RL algorithms.

研究の動機と目的

  • Visual tracking を連続意思決定問題として定式化し、時系列情報を活用して長期追跡性能を向上させる。
  • ビデオフレームから直接境界ボックスを出力する畳み込みリカレントニューラルネットワークを開発する。
  • 長期報酬を最大化するために、強化学習でオフライン訓練を行い、モデルを長期追跡報酬で最適化する。
  • オンライン微調整なしに単純なフォワードパスでオンライン追跡を可能にしつつ、高い精度を維持する。

提案手法

  • 観測ネットワークが各フレームを特徴へと符号化し、位置信号と連結して再帰ネットワークへ入力する。
  • 再帰(LSTM)ネットワークが時系列特徴を処理し、隠れ状態 h_t から bounding box l_t = (x, y, w, h) を予測する。
  • ポリシーは l_t をガウスの平均として出力する;勾配分散を低減するために baseline を用いた REINFORCE による訓練を行う。
  • 2つの報酬定義を使用する:初期段階の r_t = -avg(|l_t - g_t|) - max(|l_t - g_t|) および後半段階の IoU 基準の r_t = |l_t ∩ g_t| / |l_t ∪ g_t|、合計報酬 R=Σ r_t を最大化する。
  • 訓練は逆伝播と REINFORCE を組み合わせて W = {W_o, W_r} をエンドツーエンドで更新する;ガウス方策により訓練時にはサンプリングが可能で、推論時には決定的な出力となる。
  • Yolo の事前訓練済み特徴 (訓練中は固定) を観測ベクトルの位置信号と融合する;時系列推論を担当する 1 層 5000 ユニット LSTM を用いる。

実験結果

リサーチクエスチョン

  • RQ1完全なエンドツーエンドの CNN+RNN モデルを強化学習で訓練すれば、ビデオフレームを横断してターゲットを効果的に追跡できるか。
  • RQ2長期の時系列情報を LSTM によって組み込むと、フレーム単位の手法と比べて追跡の頑健性が向上するか。
  • RQ3オフライン訓練の深層強化学習トラッカーは、オンライン微調整なしでリアルタイムのフレームレートでオンライン動作できるかつつ、高い精度を維持できるか。
  • RQ4異なる報酬定義(初期の代替指標 vs. IoU 基準)が長期追跡性能にどのような影響を与えるか。

主な発見

トラッカーAUC精度速度 (fps)
DLT [27]0.3840.4908
STRUCK [8]0.4960.66410
DRLT (ours)0.5430.63545
DRLT-LSTM (ours)0.5430.635270
  • 提案された DRLT フレームワークは、OTB 追跡ベンチマークでいくつかのベースラインと比較して最先端の性能を達成している。
  • DRLT は GTX 1080 で約 45 fps、事前計算済み YOLO 特徴を用いるバリアント(DRLT-LSTM)は 270 fps に達する。
  • ベンチマークのサブセットで DRLT は AUC=0.543、Precision=0.635 を達成し、DLT (AUC=0.368) および STRUCK (AUC=0.496) を上回った。
  • より大きな RNN のステップサイズ(長い時間ウィンドウ)は追跡精度を向上させ、時系列モデリングの重要性を示している。
  • このシステムは推論時にオンライン微調整を要せず、オフライン訓練と簡易なオンラインフォワードを通じてリアルタイム性能を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。