QUICK REVIEW

[論文レビュー] VITAL: VIsual Tracking via Adversarial Learning

Yibing Song, Chao Ma|arXiv (Cornell University)|Apr 12, 2018

Video Surveillance and Tracking Methods参考文献 47被引用数 58

ひとこと要約

VITAL は特徴空間の敵対的マスクで陽性サンプルを拡張し、クラス不均衡に対処するコスト感度損失を用いることで、追跡検出における最先端手法に対して頑健性を向上させる。

ABSTRACT

The tracking-by-detection framework consists of two stages, i.e., drawing samples around the target object in the first stage and classifying each sample as the target object or as background in the second stage. The performance of existing trackers using deep classification networks is limited by two aspects. First, the positive samples in each frame are highly spatially overlapped, and they fail to capture rich appearance variations. Second, there exists extreme class imbalance between positive and negative samples. This paper presents the VITAL algorithm to address these two problems via adversarial learning. To augment positive samples, we use a generative network to randomly generate masks, which are applied to adaptively dropout input features to capture a variety of appearance changes. With the use of adversarial learning, our network identifies the mask that maintains the most robust features of the target objects over a long temporal span. In addition, to handle the issue of class imbalance, we propose a high-order cost sensitive loss to decrease the effect of easy negative samples to facilitate training the classification network. Extensive experiments on benchmark datasets demonstrate that the proposed tracker performs favorably against state-of-the-art approaches.

研究の動機と目的

検出による追跡（tracking-by-detection）におけるフレーム特有の識別特徴への過剰適合を抑制する
特徴空間で陽性サンプルを拡張して時間的な外観変動を捉える
高次のコスト感度損失を導入してクラス不均衡を緩和する
長時間にわたる頑健な特徴を同定するために敵対的学習を活用する
標準ベンチマークにおいて最先端の追跡器に対する有利な性能を示す

提案手法

最後の CNN 畳み込み層と最初の全結合層の間に生成ネットワーク G を挿入して特徴ドロップアウト用の重みマスクを生成する
マスク済みの特徴で D（分類器）を訓練して時間的に頑健な表現を学習する
G が反復的に D の損失を最大化するマスクを特定する敵対的学習を用い、D をフレーム特有の識別特徴から逸らす
難易度の高い否定例を強調し、容易な否定例の重みを低下させるフォーカル風の変調に基づく高次のコスト感度損失を適用する
オフライン事前学習とオンライン更新の際に交互に G と D を訓練するが、推定時には G を除去する
ラベル付きサンプルで事前訓練し、多様化した陽性サンプルと抽出した難易度の高い否定例を用いてオンラインで微調整する

実験結果

リサーチクエスチョン

RQ1敵対的に生成された特徴マスクは、追跡検出においてより時間的に頑健な表現を達成できるか？
RQ2極端なクラス不均衡を持つ追跡データセットにおいて、高次のコスト感度損失は識別性を改善するか？
RQ3標準ベンチマークにおける精度とオーバーラップ指標で、VITAL は最先端の追跡器とどう比較されるか？
RQ4時間を通じて持続する特徴に焦点を当てることで、フレーム特有の識別手掛かりではなく時間的頑健性を実現できるか？

主な発見

VITAL は OTB-2013、OTB-2015、VOT-2016 といった標準ベンチマークで最先端の追跡器に対して有利な結果を達成する
敵対的に学習されたマスクはフレーム特有の識別特徴への依存を減らし、時間的に頑健な表現を促進する
提案されたコスト感度損失は難易度の高い否定例の抽出を助け、訓練中の易しい否定例の支配を緩和する
アブレーション研究はランダムマスキングが性能低下をもたらす一方、敵対的学習マスキングは頑健性と精度を向上させることを示す
遮蔽、変形、視点変化といった困難な条件下で、VITAL は複数のベースラインと比べて性能が向上する

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。