QUICK REVIEW

[論文レビュー] Deep Reinforcement Learning for Visual Object Tracking in Videos

Da Zhang, Hamid Reza Maei|arXiv (Cornell University)|Jan 31, 2017

Video Surveillance and Tracking Methods参考文献 54被引用数 101

ひとこと要約

この論文は、CNN、RNN（LSTM）、および強化学習を組み合わせたエンドツーエンドの Deep RL Tracker を提案し、ビデオフレーム全体でターゲットオブジェクトの境界ボックスを予測する。OTBで最先端の結果を達成し、リアルタイムまたはそれより高速な性能を実現する。

ABSTRACT

In this paper we introduce a fully end-to-end approach for visual tracking in videos that learns to predict the bounding box locations of a target object at every frame. An important insight is that the tracking problem can be considered as a sequential decision-making process and historical semantics encode highly relevant information for future decisions. Based on this intuition, we formulate our model as a recurrent convolutional neural network agent that interacts with a video overtime, and our model can be trained with reinforcement learning (RL) algorithms to learn good tracking policies that pay attention to continuous, inter-frame correlation and maximize tracking performance in the long run. The proposed tracking algorithm achieves state-of-the-art performance in an existing tracking benchmark and operates at frame-rates faster than real-time. To the best of our knowledge, our tracker is the first neural-network tracker that combines convolutional and recurrent networks with RL algorithms.

研究の動機と目的

Visual tracking を連続意思決定問題として定式化し、時系列情報を活用して長期追跡性能を向上させる。
ビデオフレームから直接境界ボックスを出力する畳み込みリカレントニューラルネットワークを開発する。
長期報酬を最大化するために、強化学習でオフライン訓練を行い、モデルを長期追跡報酬で最適化する。
オンライン微調整なしに単純なフォワードパスでオンライン追跡を可能にしつつ、高い精度を維持する。

提案手法

観測ネットワークが各フレームを特徴へと符号化し、位置信号と連結して再帰ネットワークへ入力する。
再帰（LSTM）ネットワークが時系列特徴を処理し、隠れ状態 h_t から bounding box l_t = (x, y, w, h) を予測する。
ポリシーは l_t をガウスの平均として出力する；勾配分散を低減するために baseline を用いた REINFORCE による訓練を行う。
2つの報酬定義を使用する：初期段階の r_t = -avg(|l_t - g_t|) - max(|l_t - g_t|) および後半段階の IoU 基準の r_t = |l_t ∩ g_t| / |l_t ∪ g_t|、合計報酬 R=Σ r_t を最大化する。
訓練は逆伝播と REINFORCE を組み合わせて W = {W_o, W_r} をエンドツーエンドで更新する；ガウス方策により訓練時にはサンプリングが可能で、推論時には決定的な出力となる。
Yolo の事前訓練済み特徴 (訓練中は固定) を観測ベクトルの位置信号と融合する；時系列推論を担当する 1 層 5000 ユニット LSTM を用いる。

実験結果

リサーチクエスチョン

RQ1完全なエンドツーエンドの CNN+RNN モデルを強化学習で訓練すれば、ビデオフレームを横断してターゲットを効果的に追跡できるか。
RQ2長期の時系列情報を LSTM によって組み込むと、フレーム単位の手法と比べて追跡の頑健性が向上するか。
RQ3オフライン訓練の深層強化学習トラッカーは、オンライン微調整なしでリアルタイムのフレームレートでオンライン動作できるかつつ、高い精度を維持できるか。
RQ4異なる報酬定義（初期の代替指標 vs. IoU 基準）が長期追跡性能にどのような影響を与えるか。

主な発見

トラッカー	AUC	精度	速度 (fps)
DLT [27]	0.384	0.490	8
STRUCK [8]	0.496	0.664	10
DRLT (ours)	0.543	0.635	45
DRLT-LSTM (ours)	0.543	0.635	270

提案された DRLT フレームワークは、OTB 追跡ベンチマークでいくつかのベースラインと比較して最先端の性能を達成している。
DRLT は GTX 1080 で約 45 fps、事前計算済み YOLO 特徴を用いるバリアント（DRLT-LSTM）は 270 fps に達する。
ベンチマークのサブセットで DRLT は AUC=0.543、Precision=0.635 を達成し、DLT (AUC=0.368) および STRUCK (AUC=0.496) を上回った。
より大きな RNN のステップサイズ（長い時間ウィンドウ）は追跡精度を向上させ、時系列モデリングの重要性を示している。
このシステムは推論時にオンライン微調整を要せず、オフライン訓練と簡易なオンラインフォワードを通じてリアルタイム性能を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。