QUICK REVIEW

[論文レビュー] Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

Hyeonseob Nam, Bohyung Han|arXiv (Cornell University)|Oct 27, 2015

Video Surveillance and Tracking Methods参考文献 35被引用数 79

ひとこと要約

本論文では、複数の動画シーケンスを同時に学習することで、ドメインに依存しない特徴表現を共有的に学習する、視覚追跡を目的としたマルチドメイン畳み込みニューラルネットワークMDNetを提案する。推論時に1つのドメイン固有分類層をオンラインで微調整することで、オンライン適応を実現する。本手法はOTB100およびVOT2014ベンチマークで最先端の性能を達成し、精度と耐性の両面で先行手法を上回っている。

ABSTRACT

We propose a novel visual tracking algorithm based on the representations from a discriminatively trained Convolutional Neural Network (CNN). Our algorithm pretrains a CNN using a large set of videos with tracking ground-truths to obtain a generic target representation. Our network is composed of shared layers and multiple branches of domain-specific layers, where domains correspond to individual training sequences and each branch is responsible for binary classification to identify the target in each domain. We train the network with respect to each domain iteratively to obtain generic target representations in the shared layers. When tracking a target in a new sequence, we construct a new network by combining the shared layers in the pretrained CNN with a new binary classification layer, which is updated online. Online tracking is performed by evaluating the candidate windows randomly sampled around the previous target state. The proposed algorithm illustrates outstanding performance compared with state-of-the-art methods in existing tracking benchmarks.

研究の動機と目的

畳み込みニューラルネットワーク（CNN）の視覚追尾における大規模で追尾に特化した学習データの不足に取り組むこと。
外見や運動パターンが異なる多様な動画シーケンスから、一般的でドメインに依存しないターゲット表現を学習すること。
1つの分類ヘッドのオンライン微調整により、新しい追尾シーケンスへの効果的な適応を可能にすること。
ImageNetからの転移学習の限界を克服し、追尾に特化したアノテーションを備えた動画データで学習すること。
高い汎化性能を示すリアルタイム視覚追尾に適した軽量CNNアーキテクチャの開発

提案手法

汎用特徴学習のための共有畳み込み層と、各動画シーケンスごとの二値分類用のドメイン固有ブランチを有する。
各ドメイン（動画シーケンス）は反復的に学習され、共有層は同時に更新され、ドメインに依存しない特徴とドメイン固有の特徴が分離される。
オンライン追尾の際にはドメイン固有ブランチを削除し、新しい単一の分類層を追加してオンライン学習により微調整する。
オンライン適応中に困難なサンプルを効率的に更新するため、ハードネガティブマーチングを組み込む。
ネットワークは事前学習段階でOTB100の89個の動画シーケンスで行い、その後、新しいテストシーケンスに最小限のパラメータでオンラインで適応する。
最終的なトラッカーは、前回のターゲット状態の周囲の候補ウィンドウを評価し、最良のバウンディングボックスを予測する。

実験結果

リサーチクエスチョン

RQ1複数の追尾アノテーション付き動画シーケンスで学習したCNNは、視覚追尾に適した汎用的で転送可能な表現を学習できるか？
RQ2マルチドメイン学習フレームワークによりドメイン固有およびドメインに依存しない特徴を分離することで、追尾性能が向上するか？
RQ3事前学習済みCNNにおける1つの分類ヘッドのオンライン微調整は、新しいシーケンスにおける強固で適応可能な追尾を達成できるか？
RQ4本手法は、厳しい視覚的条件下でも精度と耐性の面で最先端のトラッカーと比較して優れているか？
RQ5再トレーニングなしで未観測のシーケンスに十分に一般化できるか、特に初期化が不正確な場合に有効か？

主な発見

VOT2014ベンチマークにおいて、MDNetは最高の精度（0.63）と2番目に高い耐性スコア（2.50）を達成し、総合的に第1位となった。
VOT2014のregion_noise実験では、MDNetは高い精度（0.60）と低い失敗率（3.31）を維持しており、初期化エラーに対する強い耐性を示した。
OTB100では、精度と成功率の両面で、比較対象のすべての手法を上回った。特にBolt2 や Ironman のような困難なシーケンスで優れた性能を発揮した。
図9に示すように、照明変化、運動変化、遮蔽、サイズ変化といった視覚的属性に対して、安定した性能を示した。
失敗事例の主な原因は、急激な外見変化（例：Coupon, Jump）であり、極端な外見ドリフトへの対処の限界を示した。
アブレーションスタディにより、オンライン学習およびハードネガティブマーチングが追尾性能の向上に顕著に寄与することが確認された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。