QUICK REVIEW

[論文レビュー] Unsupervised Deep Tracking

Ning Wang, Yibing Song|arXiv (Cornell University)|Apr 3, 2019

Video Surveillance and Tracking Methods参考文献 54被引用数 31

ひとこと要約

本論文は、大規模なラベルなし動画を用いて前向き・後向き追跡の一貫性損失に基づく自己教師付き学習により、教師ありアノテーションを一切使用せずに、完全教師ありトラッカーと同等の性能を達成する非教師付き深層追跡手法を提案する。本手法は、軌道の一貫性、複数フレーム検証、コスト感受性損失を活用し、視覚追跡における非教師付き表現学習を向上させる。

ABSTRACT

We propose an unsupervised visual tracking method in this paper. Different from existing approaches using extensive annotated data for supervised learning, our CNN model is trained on large-scale unlabeled videos in an unsupervised manner. Our motivation is that a robust tracker should be effective in both the forward and backward predictions (i.e., the tracker can forward localize the target object in successive frames and backtrace to its initial position in the first frame). We build our framework on a Siamese correlation filter network, which is trained using unlabeled raw videos. Meanwhile, we propose a multiple-frame validation method and a cost-sensitive loss to facilitate unsupervised learning. Without bells and whistles, the proposed unsupervised tracker achieves the baseline accuracy of fully supervised trackers, which require complete and accurate labels during training. Furthermore, unsupervised framework exhibits a potential in leveraging unlabeled or weakly labeled data to further improve the tracking accuracy.

研究の動機と目的

高価で手作業によるアノテーションが必要な訓練データに依存しない視覚追跡手法の開発を目的とする。
前向き追跡と後向き追跡の間の軌道的一貫性が、何らアノテーションなしに深層特徴学習の自己教師信号として機能するかを調査すること。
ノイズが多いまたは誤検出された後向き軌道に対処するため、複数フレーム検証とコスト感受性損失を用いて非教師付き追跡性能を向上させること。
インターネット規模のラベルなし動画を用いた非教師付き事前学習が、標準ベンチマークで教師ありベースラインと同等の追跡精度を達成できるかを評価すること。

提案手法

フレームワークは、前向き・後向き追跡の一貫性に基づく非教師付き損失を用いて訓練されるシアンプル相関フィルターバックボーンを採用する。
前向き追跡は、以降のフレームにおけるターゲット位置を予測する。後向き追跡は、最後のフレームから出発し、初期位置を予測する。
一貫性損失は、初期の真値ボックスと再追跡された位置との乖離を測定し、非教師付きの監督信号を形成する。
複数フレーム検証により、前向き・後向き軌道間の乖離を増大させ、検証における誤検出を低減する。
ノイズが多いまたは誤って予測されたサンプルの影響を軽減するため、コスト感受性損失を導入する。
訓練中に部分的または不完全なターゲットに対しても頑健になるよう、ランダムにクロップされたバウンディングボックスを初期化に用いる。

実験結果

リサーチクエスチョン

RQ1前向き・後向き追跡の一貫性は、何ら真値アノテーションなしに深層視覚トラッカーの学習に有効な自己教師信号として機能するか？
RQ2提案された非教師付き学習パイプラインは、大規模なラベルなし動画から頑健な視覚表現を学習するのにどの程度有効か？
RQ3複数フレーム検証とコスト感受性損失を統合することで、非教師付き追跡学習の信頼性が向上するか？
RQ4ラベルなしデータを用いた非教師付き事前学習により、標準ベンチマークで完全教師ありトラッカーと同等の性能が達成できるか？
RQ5追加の弱教師ありまたはラベルなしデータを活用することで、非教師付きフレームワークはさらに向上するか？

主な発見

提案された非教師付きトラッカー（UDT）は、OTB-2015ベンチマークで0.54の精度を達成し、完全教師ありSiamFCや他の最先端手法と同等の性能を示した。
VOT2016ベンチマークでは、UDTはEAOスコア0.226を達成し、SiamFC や DSST といった教師ありベースラインと同等の性能を示した。
改良版UDT+は、VOT2016でEAO 0.301を達成し、SA-Siam や MemTrack といった複数の完全教師ありトラッカーを上回った。
属性分析の結果、UDTは多くの課題に対して良好な性能を示したが、照明変化、遮蔽、高速運動の状況では、限られた監視情報のため劣化していた。
定性的な結果から、UDTはオンライン適応や監視なしに、Ironman や Diving といった挑戦的なシーケンスを効果的に追跡できることを示した。
非教師付きフレームワークは、追加のラベルなしデータを組み合わせることで、追跡精度の向上が見込まれ、スケーラビリティと一般化の利点を示している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。