QUICK REVIEW

[論文レビュー] Long-term Tracking in the Wild: A Benchmark

Jack Valmadre, Luca Bertinetto|arXiv (Cornell University)|Mar 26, 2018

Video Surveillance and Tracking Methods参考文献 6被引用数 21

ひとこと要約

本稿では、366のシーケンス（合計14時間）を含む大規模かつ長期的なトラッキングデータセット「OxUvAベンチマーク」を紹介する。対象物は頻繁に消失する。トラッカーは局所化精度と存在/不在検出の両方で評価され、多くの短時間トラッカーはモデルのずれにより長期シーケンスで失敗することが明らかになったが、SINT や MDNet などの手法は、長期トラッキングおよび遮蔽に強く、より優れた耐性を示した。

ABSTRACT

We introduce the OxUvA dataset and benchmark for evaluating single-object tracking algorithms. Benchmarks have enabled great strides in the field of object tracking by defining standardized evaluations on large sets of diverse videos. However, these works have focused exclusively on sequences that are just tens of seconds in length and in which the target is always visible. Consequently, most researchers have designed methods tailored to this "short-term" scenario, which is poorly representative of practitioners' needs. Aiming to address this disparity, we compile a long-term, large-scale tracking dataset of sequences with average length greater than two minutes and with frequent target object disappearance. The OxUvA dataset is much larger than the object tracking datasets of recent years: it comprises 366 sequences spanning 14 hours of video. We assess the performance of several algorithms, considering both the ability to locate the target and to determine whether it is present or absent. Our goal is to offer the community a large and diverse benchmark to enable the design and evaluation of tracking methods ready to be used "in the wild". The project website is http://oxuva.net

研究の動機と目的

既存のトラッキングベンチマークが常に可視の対象物を前提としているのに対し、実世界の応用に即した長期トラッキングを反映する、長期トラッキングのギャップを埋めるための目的。
長時間シーケンス（平均2.4分）と頻繁な対象物の消失を特徴とし、合計14時間（150万フレーム）の大規模データセットを構築する目的。
標準的なIoUベースの指標にとどまらず、局所化精度と存在/不在検出能力の両方を測定する新しい評価プロトコルを設計する目的。
バイナリ属性ではなく連続的属性（例：速度、スケール、干渉要因）を導入し、さまざまな条件下でのトラッカー性能の微細な分析を可能にする目的。
開発用とテスト用にデータを分割し、テストラベルをレート制限付きのサーバー経由でのみ入手可能にする仕組みを導入することで、一般化を促進する目的。

提案手法

視聴回数が少ない（編集されていない実世界のコンテンツを示す指標としての）YouTube動画からデータを収集し、対象物の消失率が高いシーケンスに焦点を当てる。
1秒ごとにバウンディングボックスでアノテーションを実施し、ラベル密度よりもカバレッジを優先することで、14時間にわたる大規模なスケーラビリティを確保。
真陽性率（TPR）と真陰性率（TNR）を組み合わせた新しい評価指標を考案し、局所化と存在/不在検出の両方の性能を評価。
フレームまたは動画ごとに計算される連続的属性（相対的スピード、スケール変化、干渉要因の数、オブジェクトサイズ、遮蔽、シーケンス長）をビン化し、性能分析に用いる。
テストセットは、ハイパーパramータの過適合を防ぐために、レート制限付きの評価サーバーの背後に隠されている。
SiamFC+、MDNet、ECO-HC、TLD などの最先端トラッカーをテストセットで評価し、長期的な耐性と失敗モードを評価。

実験結果

リサーチクエスチョン

RQ1対象物の消失が頻繁に発生する長時間シーケンス（平均2.4分）において、既存のトラッキングアルゴリズムはどの程度の性能を示すか？
RQ2長時間にわたるトラッキング期間において、トラッカーはどの程度、精度と存在検出能力を維持できるか？
RQ3速度、スケール変動、干渉要因の数、遮蔽などの要因のうち、長期トラッキング状況でトラッカー性能を最も顕著に低下させる要因は何か？
RQ4バイナリ属性ではなく連続的属性を用いることで、性能分析の解釈可能性と粒度はどのように向上するか？
RQ51Hzのスパarsely annotatedデータセット（1秒ごとのラベル）は、密な人間によるアノテーションを必要としなくても、信頼性のある評価を提供できるか？

主な発見

すべてのトラッカーが、対象物が10％以上のフレームで存在しない場合に顕著な性能低下を示し、長期トラッキングにおける深刻な課題であることが明らかになった。
局所探索に依存するトラッカー（例：SiamFC+、ECO-HC）は、対象物の速度が上昇するにつれて急速に性能が低下するが、TLD は高速移動に対して最も耐性があることが判明した。
6倍のスケール変化で性能が急激に低下し、特に6倍のスケール変化を含むビンに多数の動画が含まれていることから、極端なスケール変化への対処における大きな性能ギャップが明らかになった。
EBT や LCT は、同じクラスの干渉要因が2つ存在する状況で顕著に性能が低下し、フル画像検索時に混乱を起こす可能性があることが示されたが、他の手法は依然として耐性を示した。
SINT や MDNet は優れた長期的安定性を示し、3分以上にわたって性能を維持した。一方、MDNet や ECO-HC などの多くのトラッカーは数分で急激に性能を低下させた。
オブジェクトサイズは画像面積の0.2で性能ピークを示し、MDNet や LCT は大きなサイズでも性能を維持していたことから、より優れたスケーラビリティを示した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。