QUICK REVIEW

[論文レビュー] Adaptive Decontamination of the Training Set: A Unified Formulation for Discriminative Visual Tracking

Martin Danelljan, G Hager|arXiv (Cornell University)|Sep 20, 2016

Video Surveillance and Tracking Methods参考文献 20被引用数 36

ひとこと要約

本稿では、顔認識モデルとサンプル品質重みを同時に最適化することで、教師あり視覚追跡における訓練データの不純物除去を段階的に実行する統合的で一括学習の定式化を提案する。1つの損失関数を最小化することで、不適切なサンプル（例：ずれ、遮蔽）を低重み化し、正確なサンプルを高重み化する。この手法により、OTB-2015で平均オーバーラップ精度が3.8%向上し、最先端の性能を達成した。

ABSTRACT

Tracking-by-detection methods have demonstrated competitive performance in recent years. In these approaches, the tracking model heavily relies on the quality of the training set. Due to the limited amount of labeled training data, additional samples need to be extracted and labeled by the tracker itself. This often leads to the inclusion of corrupted training samples, due to occlusions, misalignments and other perturbations. Existing tracking-by-detection methods either ignore this problem, or employ a separate component for managing the training set. We propose a novel generic approach for alleviating the problem of corrupted training samples in tracking-by-detection frameworks. Our approach dynamically manages the training set by estimating the quality of the samples. Contrary to existing approaches, we propose a unified formulation by minimizing a single loss over both the target appearance model and the sample quality weights. The joint formulation enables corrupted samples to be down-weighted while increasing the impact of correct ones. Experiments are performed on three benchmarks: OTB-2015 with 100 videos, VOT-2015 with 60 videos, and Temple-Color with 128 videos. On the OTB-2015, our unified formulation significantly improves the baseline, with a gain of 3.8% in mean overlap precision. Finally, our method achieves state-of-the-art results on all three datasets. Code and supplementary material are available at http://www.cvl.isy.liu.se/research/objrec/visualtracking/decontrack/index.html .

研究の動機と目的

検出ベースの追跡フレームワークにおいて、汚染された訓練サンプルが原因で生じるモデルのずれや追跡失敗の問題に対処すること。
既存手法が訓練データの汚染を無視するか、ヒューリスティックで分離されたモジュールを用いるという制限を克服すること。
サンプル品質推定を主な学習目的に統合する汎用的でエンドツーエンドの定式化を構築すること。
識別的トラッカーにおいて、明示的でヒューリスティックな訓練サンプル管理モジュールを不要にすること。

提案手法

顔認識モデルのパラメータとサンプル品質重みの両方を最適化する統合的最適化問題を定式化する。
各訓練サンプルの整合性と外観の一貫性に基づき、その信頼性を動的に反映する学習可能なサンプル重みを導入する。
分類／回帰損失とサンプル重みの正則化を組み合わせた連合損失関数を用い、汚染されたサンプルが自動的に低重み化されるようにする。
SVM やリッジ回帰といった標準的な識別的学習手法にこの定式化を適用することで、汎用的かつ既存のトラッカーに容易に統合可能である。
オンライン学習を用いて、各フレームでモデルパラメータとサンプル重みを同時に更新することで、追跡の課題にリアルタイムで適応可能にする。
連合最適化により、別個の検出やフィルタリングモジュールを必要とせずに、訓練データを暗黙的に不純物除去する。

実験結果

リサーチクエスチョン

RQ1統合的学習定式化により、顔認識モデルとサンプル品質重みを同時に最適化することで、追跡のロバスト性が向上するか？
RQ2主な学習目的にサンプル品質推定を統合することで、分離されたヒューリスティックなサンプル管理モジュールを用いる既存手法を上回る性能が得られるか？
RQ3連合学習により、ずれや遮蔽などの汚染されたサンプルの影響をどの程度軽減できるか？
RQ4このアプローチは、多様な追跡ベンチマークに一般化可能であり、遮蔽、変形、スケール変化などの困難な属性に対応できるか？

主な発見

提案手法は、ベースラインと比較してOTB-2015ベンチマークで平均オーバーラップ精度が3.8%の絶対的向上を達成した。
OTB-2015ではAUCスコア63.4%を達成し、SRDCF（60.5%）やHCF（56.6%）を上回った。
VOT-2015では期待平均オーバーラップ（EAO）が0.299を達成し、次に優れたトラッカー（SRDCF：0.288）を上回った。
Temple-Colorデータセットでは平均オーバーラップ精度65.8%を達成し、以前の最先端手法（MEEMおよびSRDCF：62.2%）を上回った。
OTB-2015の全11属性において一貫した向上を示し、特に遮蔽、背景の雑音、平面外回転のシナリオで顕著な改善が見られた。
定性的な結果から、トラッカーが不適切なサンプル（例：Girl動画のフレーム271）を適切に低重み化しており、遮蔽後の正確な再検出が可能であることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。