QUICK REVIEW

[論文レビュー] Online Tracking by Learning Discriminative Saliency Map with Convolutional Neural Network

Seunghoon Hong, Tackgeun You|arXiv (Cornell University)|Feb 24, 2015

Video Surveillance and Tracking Methods参考文献 42被引用数 518

ひとこと要約

本稿では、正確なターゲット局在化およびピクセル単位のセグメンテーションを実現するため、事前学習済み畳み込みニューラルネットワーク（CNN）を活用して判別的サリエンシーマップを学習するオンライン視覚追跡手法を提案する。SVMで同定された特徴量をCNNを逆方向にバックプロパゲートすることで、ターゲット固有のサリエンシーマップを生成し、外観モデリングを強化する。このアプローチにより、ベンチマークデータセット上で最先端の性能を達成し、追跡精度とセグメンテーション能力に優れた結果が得られた。

ABSTRACT

We propose an online visual tracking algorithm by learning discriminative saliency map using Convolutional Neural Network (CNN). Given a CNN pre-trained on a large-scale image repository in offline, our algorithm takes outputs from hidden layers of the network as feature descriptors since they show excellent representation performance in various general visual recognition problems. The features are used to learn discriminative target appearance models using an online Support Vector Machine (SVM). In addition, we construct target-specific saliency map by backpropagating CNN features with guidance of the SVM, and obtain the final tracking result in each frame based on the appearance model generatively constructed with the saliency map. Since the saliency map visualizes spatial configuration of target effectively, it improves target localization accuracy and enable us to achieve pixel-level target segmentation. We verify the effectiveness of our tracking algorithm through extensive experiment on a challenging benchmark, where our method illustrates outstanding performance compared to the state-of-the-art tracking algorithms.

研究の動機と目的

遮蔽、照明変化、運動ブラーなどの複雑な現実世界の条件下でも頑健な視覚追跡を実現すること。
SVMを用いたオンライン判別的学習と深層CNN特徴を組み合わせることで、ターゲット外観モデリングを向上させること。
判別的特徴のバックプロパゲーションにより、ターゲット固有のサリエンシーマップを構築し、ピクセル単位のターゲットセグメンテーションを可能とすること。
SVMおよび生成モデルの段階的学習を用いて、継続的な追跡性能を維持するためのオンライン適応を実現すること。

提案手法

オブジェクト外観のための汎用的で高レベルの表現として、最後の畳み込み層からの事前学習済みCNN特徴を活用する。
逐次的な学習サンプルを用いて、オンラインSVMを用いて判別的ターゲット-背景分類を学習する。
正例SVMサンプルに関連するCNN特徴量をネットワークを逆方向にバックプロパゲートすることで、ターゲット固有のサリエンシーマップを生成する。
複数の正例サンプルからのサリエンシーマップを統合し、判別的ターゲット領域を空間的に精緻化したマップを形成する。
サリエンシーマップを尤度観測モデルとして用いた逐次ベイズフィルタリングにより追跡を実行する。
リアルタイムでオンラインSVMおよび生成的外観モデルを更新することで、継続的な適応を実現する。

実験結果

リサーチクエスチョン

RQ1ネットワークの微調整なしに、事前学習済みCNN特徴をオンライン視覚追跡に効果的に活用できるか？
RQ2CNN特徴からどのように判別的サリエンシーマップを構築すれば、局在化精度を向上させられるか？
RQ3SVM意思決定境界から導出されるサリエンシーマップは、挑戦的な視覚的条件下での追跡の頑健性を向上させられるか？
RQ4サリエンシーマップに基づく生成モデルは、ボクシングボックスのみに依存する追跡と比較して、ピクセル単位のセグメンテーションにどの程度寄与するか？

主な発見

提案手法はオンライン追跡ベンチマークで最先端の性能を達成し、すべての評価指標において既存のトラッカーを上回った。
サリエンシーマップに基づく生成モデリングを有する完全なアルゴリズムは、SVMスコアのみに依存する簡略化されたバージョンと比較して顕著な改善を示した。
トラッカーは高い精度のピクセル単位のセグメンテーションを達成し、オーバーラップ比（IoU）がボクシングボックスベースのトラッカーを著しく上回った。
定量的結果から、遮蔽、照明変動、高速運動を含むすべての11の追跡チャレンジ要因において一貫した優位性が示された。
9つの動画シーケンスにおける成績プロットでは、提案手法が最高のAUCスコアを達成しており、頑健で高精度な追跡性能を示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。