QUICK REVIEW

[論文レビュー] LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking

Heng Fan, Liting Lin|arXiv (Cornell University)|Sep 20, 2018

Video Surveillance and Tracking Methods参考文献 54被引用数 22

ひとこと要約

本論文は、1,400の動画シーケンスと350万フレーム以上の密なアノテーションを備えた大規模で高品質なベンチマーク、LaSOTを紹介する。これは、深層トラッキングモデルの強固な訓練と評価を可能にし、MDNet や VITAL といった最先端手法ですら、それぞれ精度スコア 0.373 と 0.360 を記録したが、依然として大幅な改善の余地があることを示している。

ABSTRACT

In this paper, we present LaSOT, a high-quality benchmark for Large-scale Single Object Tracking. LaSOT consists of 1,400 sequences with more than 3.5M frames in total. Each frame in these sequences is carefully and manually annotated with a bounding box, making LaSOT the largest, to the best of our knowledge, densely annotated tracking benchmark. The average video length of LaSOT is more than 2,500 frames, and each sequence comprises various challenges deriving from the wild where target objects may disappear and re-appear again in the view. By releasing LaSOT, we expect to provide the community with a large-scale dedicated benchmark with high quality for both the training of deep trackers and the veritable evaluation of tracking algorithms. Moreover, considering the close connections of visual appearance and natural language, we enrich LaSOT by providing additional language specification, aiming at encouraging the exploration of natural linguistic feature for tracking. A thorough experimental evaluation of 35 tracking algorithms on LaSOT is presented with detailed analysis, and the results demonstrate that there is still a big room for improvements.

研究の動機と目的

長期間の視覚トラッキングのための訓練および評価に用いられる大規模で高品質なデータセットの不足に対処すること。
従来のベンチマークに見られる短いシーケンス長、疎なアノテーション、クラスの不均衡といった制限を克服すること。
実世界のシナリオにおけるトラッカー評価の信頼性と現実性を向上させるための標準化された大規模ベンチマークを提供すること。
各シーケンスに言語的アノテーションを含めることで、視覚的特徴と言語的特徴の統合を促進し、マルチモーダル（視覚的および言語的）特徴学習の研究を支援すること。
専用の大規模な訓練およびテストプラットフォームを通じて、ディープラーニングベースのトラッカーの開発を支援すること。

提案手法

平均2,506フレームの長さを持つ1,400の動画シーケンスを収集し、合計で350万フレーム以上をカバーし、すべて手動で正確なバウンディングボックスでアノテートした。
ターゲットが頻繁に消えたり再出現したりするシーケンスを含めることで、長期間トラッキングに重点を置いたベンチマークを設計した。
マルチモーダル（視覚的および言語的）特徴学習のための研究を促進するために、各シーケンスに言語的アノテーションを導入した。
モデルの訓練と偏りのない評価を両立させるために、2つのプロトコルに従い、データセットを訓練用とテスト用に分割した。
標準的な指標（精度、正規化精度、成功確率）を用いて、35の最先端のトラッキングアルゴリズムをベンチマークで評価した。
LaSOTの訓練セットを用いてSiamFCおよびMDNetの再訓練実験を行い、タスク固有の大規模データからのパフォーマンス向上を実証した。

実験結果

リサーチクエスチョン

RQ1大規模で密なアノテーションが施されたベンチマークは、長期間トラッキングのシナリオにおける深層視覚トラッカーの訓練および評価を向上させ得るか？
RQ2視覚的特徴と言語的特徴を併用することで、遮蔽や外観変化が顕著な困難なシーケンスにおいて、トラッキングのロバスト性がどの程度向上するか？
RQ3長期間トラッキングに重点を置き、高品質なアノテーションを備えたベンチマークにおいて、既存のトラッキングアルゴリズムは、従来のベンチマークと比較してどの程度の性能を示すか？
RQ4LaSOTで再訓練されたディープトラッカーは、ImageNet や他の一般データセットで事前学習されたモデルと比較して、測定可能なパフォーマンス向上を示すか？
RQ5多様な視覚的および言語的課題を含む現実的で長期間にわたるベンチマークで評価された際、現在のトラッカーの主な失敗モードは何か？

主な発見

LaSOT は、密な高品質アノテーションを備えた最大の既知のベンチマークであり、1,400のシーケンスと350万フレーム以上のフレームを含む。
MDNet と VITAL が、プロトコル I において最高のパフォーマンスを記録し、それぞれ精度スコア 0.373 と 0.360 を達成した。
SiamFC は精度スコア 0.339 と成功スコア 0.336 を記録し、精度とリアルタイム効率の両立が図れた。
SiamFC を LaSOT の訓練セットで再訓練した結果、OTB-2013 および OTB-2015 で一貫したパフォーマンス向上が得られ、精度が 1.3% 向上し、成功率が 2.0% 向上した。
評価結果から、現在のトラッカーとベンチマークの潜在的性能との間には大きなギャップがあることが示され、大幅な改善の余地があることが示唆された。
言語的アノテーションの導入により、マルチモーダルトラッキングに関する新たな研究分野が開かれたが、その統合は依然として未解決の課題のままである。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。