Skip to main content
QUICK REVIEW

[論文レビュー] Vision Meets Drones: A Challenge

Pengfei Zhu, Longyin Wen|arXiv (Cornell University)|Apr 20, 2018
Advanced Image and Video Retrieval Techniques参考文献 3被引用数 331
ひとこと要約

VisDrone2018は、14の中国都市からの179,264フレームにわたり、2.5 million annotated instancesを含む、4つのタスク(image/video detection、single and multi-object tracking)を対象とする、大規模なドローンベースの視覚オブジェクト検出と追跡のベンチマークを提示します。

ABSTRACT

In this paper we present a large-scale visual object detection and tracking benchmark, named VisDrone2018, aiming at advancing visual understanding tasks on the drone platform. The images and video sequences in the benchmark were captured over various urban/suburban areas of 14 different cities across China from north to south. Specifically, VisDrone2018 consists of 263 video clips and 10,209 images (no overlap with video clips) with rich annotations, including object bounding boxes, object categories, occlusion, truncation ratios, etc. With intensive amount of effort, our benchmark has more than 2.5 million annotated instances in 179,264 images/video frames. Being the largest such dataset ever published, the benchmark enables extensive evaluation and investigation of visual analysis algorithms on the drone platform. In particular, we design four popular tasks with the benchmark, including object detection in images, object detection in videos, single object tracking, and multi-object tracking. All these tasks are extremely challenging in the proposed dataset due to factors such as occlusion, large scale and pose variation, and fast motion. We hope the benchmark largely boost the research and development in visual analysis on drone platforms.

研究の動機と目的

  • 大規模なベンチマークを通じて、ドローンプラットフォーム上の視覚理解タスクを動機付け、促進する。
  • 検出と追跡アルゴリズムをストレステストするための、4つの核タスクに対する豊富で多様なアノテーションを提供する。
  • 都市部およびドローン環境全体で堅牢な評価を可能にするデータセット統計を提示する。
  • 遮蔽、尺度変化、迅速な動きに頑健なアルゴリズムの開発を促進する。

提案手法

  • ドローン撮影シーンから263のビデオクリップ(179,264フレーム)と10,209枚の静止画像を組み立てる。
  • 10カテゴリにわたる2.5 million超のオブジェクトインスタンスを注釈し、遮蔽や切断比などの属性を提供する。
  • 4つのタスクを定義する:画像ベースのオブジェクト検出、動画ベースのオブジェクト検出、単一オブジェクト追跡、マルチオブジェクト追跡。
  • トレーニング/検証のグラウンドトゥルースを公開し、過学習を防ぐためにテストラベルは保留とする。外部データの任意利用を許可。
  • タスクを横断する提出とベンチマーク用の公開評価ウェブサイトを提供。

実験結果

リサーチクエスチョン

  • RQ1最先端の検出および追跡アルゴリズムは、さまざまな視点、スケール、遮蔽を含むドローン撮影画像でどれだけの性能を発揮するか?
  • RQ2既存の手法を空中ドローンデータに適用した際の課題と限界は何か、ベンチマークは改善をどう導くか?
  • RQ3統一されたドローン中心のベンチマークは、空中環境における検出と追跡の両方のタスクの進展を促せるか?
  • RQ4データセット属性(遮蔽、切断、ビューの変化)は、4つの定義タスク全体の性能にどのように影響するか?

主な発見

  • VisDrone2018は、当時最大のドローン中心ベンチマークであり、263のビデオクリップ、179,264フレーム、そして10,209枚の画像を含む。
  • データセットは、ドローンアプリケーションに関連する10カテゴリにわたる2.5百万超の注釈付きオブジェクトインスタンスを含む。
  • 4つのタスクが確立されている:画像中のオブジェクト検出、動画中のオブジェクト検出、単一オブジェクト追跡、マルチオブジェクト追跡。
  • トレーニング/検証のグラウンドトゥルースが提供され、過学習を避けるためにテストグラウンドトゥルースは保留され、ベンチマーク用の評価ウェブサイトが用意されている。
  • このベンチマークは、遮蔽、大規模なスケール変化、姿勢変化、ドローン映像の高速運動など、難しい条件を強調している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。