[論文レビュー] TrackingNet: A Large-Scale Dataset and Benchmark for Object Tracking in the Wild
TrackingNet は、最初の大規模かつ密に注釈された追跡データセット(30k 本のビデオ、14M フレーム)を、分離されたテストセットとオンライン評価とともに提供し、深層トラッカーの訓練と公正なベンチマークを可能にします。TrackingNet での事前訓練が他のデータセットでの性能を向上させること、そして野外での追跡が依然として難しいことを示しています。
Despite the numerous developments in object tracking, further development of current tracking algorithms is limited by small and mostly saturated datasets. As a matter of fact, data-hungry trackers based on deep-learning currently rely on object detection datasets due to the scarcity of dedicated large-scale tracking datasets. In this work, we present TrackingNet, the first large-scale dataset and benchmark for object tracking in the wild. We provide more than 30K videos with more than 14 million dense bounding box annotations. Our dataset covers a wide selection of object classes in broad and diverse context. By releasing such a large-scale dataset, we expect deep trackers to further improve and generalize. In addition, we introduce a new benchmark composed of 500 novel videos, modeled with a distribution similar to our training dataset. By sequestering the annotation of the test set and providing an online evaluation server, we provide a fair benchmark for future development of object trackers. Deep trackers fine-tuned on a fraction of our dataset improve their performance by up to 1.6% on OTB100 and up to 1.7% on TrackingNet Test. We provide an extensive benchmark on TrackingNet by evaluating more than 20 trackers. Our results suggest that object tracking in the wild is far from being solved.
研究の動機と目的
- 深層トラッカーを訓練するための大規模で密に注釈された追跡データセットを提供する。
- 公正な、分離されたテストセットとオンライン評価サーバを導入してベンチマークを実現する。
- 密な追跡ラベルを促進するためにデータセットの特徴と注釈戦略を分析する。
- 現代的なトラッカーを横断する長期ベンチマークを提供し、データセット間の転移を評価する。
- TrackingNet での事前訓練が他データセットの性能向上に寄与する影響を示す。
提案手法
- YouTube Bounding Boxes (YT-BB) から TrackingNet を組み立て、密な 1 Hz 注釈をトラッカーで密填した 30,132 本のビデオと 14,205,677 フレームの訓練セットを作成する。
- YouTube CC-licensed コンテンツ (YT-CC) から 511 本のビデオのテストセットを作成し、Amazon Mechanical Turk によるデ deterministic なルールと VATIC ベースの注釈ツールを用いて注釈を行う。
- テスト動画の 15 属性スキーマを定義し、追跡の挑戦を特徴づける自動 5 属性と手動で確認される 10 属性を含む。
- オンラインサーバで One Pass Evaluation (OPE) を用いてトラッカーを評価し、IoU ベースの成功率(AUC)、精度、およびスケールを考慮した正規化された精度指標(Pnorm)を報告する。
- TrainingNet と TestNet の横断的な拡張ベンチマークを提供し、CF ベース、深層学習、Siamese など多様なトラッカーを評価する。
- TrackingNet でのトレーニングの効果を調べるため、データの一部で SiameseFC ベースのトラッカーを再訓練し、性能向上を測定する。
実験結果
リサーチクエスチョン
- RQ1本当に大規模で密に注釈された追跡データセットは野外での深層トラッカーの訓練と一般化を向上させるか。
- RQ2分布が一致する分離されたテストセットは、トラッカーの公正かつ比較可能なベンチマークを実現するか。
- RQ3TrackingNet の特徴と属性は現実世界の追跡困難さをどのように反映しているか。
- RQ4TrackingNet での事前訓練は OTB100 のような他のベンチマークへ転移し、性能を向上させるか。
- RQ5TrackingNet で評価した場合、さまざまな追跡アプローチの性能はどのような景観を示すか。
主な発見
- TrackingNet は 30,132 本の訓練ビデオと 511 本のテストビデオを含み、総計 14,205,677 フレームが直立する境界ボックスで注釈されている。
- 分離されたテストセットとオンライン評価サーバは、訓練データを超えたトラッカーの公正なベンチマークを可能にする。
- TrackingNet での深層トラッカーの事前訓練は、他データセットでの性能を最大で 1.7%(TrackingNet Test)および最大で 1.6%(OTB100)向上させることができる。
- 評価された 20 点以上のトラッカーの中で、MDNet(オンライン微調整)は TrackingNet で最高の性能を発揮するが実行時間は遅い。新しい深層トラッカー(CFNet、SiameseFC)は TrackingNet の事前訓練から恩恵を受ける。
- TrackingNet の評価は、野外でのオブジェクト追跡が未解決のままであることを示しており、テストセットでのトップ性能はおおよそ 60% の成功率で、OTB のような従来ベンチマークより低い。
- 著者らは属性別の分析(例:同一平面回転、低解像度、完全遮蔽)を提供し、追跡器が最も苦戦する領域を示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。