Skip to main content
QUICK REVIEW

[論文レビュー] Vision Meets Drones: Past, Present and Future

Pengfei Zhu, Longyin Wen|arXiv (Cornell University)|Jan 16, 2020
Video Surveillance and Tracking Methods参考文献 172被引用数 140
ひとこと要約

本論文は、中国の14都市で収集された4つのトラック(画像検出、動画検出、単一オブジェクト追跡、複数オブジェクト追跡)を備えた大規模かつ完全にアノテーションが施されたドローン撮影データセットであるVisDroneを紹介する。このデータセットはドローン上で視覚的分析アルゴリズムを評価・発展させるためのベンチマークを提供し、広範な評価と今後の研究の方向性を通じて、空中動画理解分野の研究を著しく促進する。

ABSTRACT

Drones, or general UAVs, equipped with cameras have been fast deployed with a wide range of applications, including agriculture, aerial photography, and surveillance. Consequently, automatic understanding of visual data collected from drones becomes highly demanding, bringing computer vision and drones more and more closely. To promote and track the evelopments of object detection and tracking algorithms, we have organized two challenge workshops in conjunction with ECCV 2018, and ICCV 2019, attracting more than 100 teams around the world. We provide a large-scale drone captured dataset, VisDrone, which includes four tracks, i.e., (1) image object detection, (2) video object detection, (3) single object tracking, and (4) multi-object tracking. In this paper, we first presents a thorough review of object detection and tracking datasets and benchmarks, and discuss the challenges of collecting large-scale drone-based object detection and tracking datasets with fully manual annotations. After that, we describe our VisDrone dataset, which is captured over various urban/suburban areas of 14 different cities across China from North to South. Being the largest such dataset ever published, VisDrone enables extensive evaluation and investigation of visual analysis algorithms on the drone platform. We provide a detailed analysis of the current state of the field of large-scale object detection and tracking on drones, and conclude the challenge as well as propose future directions. We expect the benchmark largely boost the research and development in video analysis on drone platforms. All the datasets and experimental results can be downloaded from the website: this https URL.

研究の動機と目的

  • 農業、監視、航空写真などの分野におけるドローンで撮影されたデータの自動的視覚的理解の需要増加に対応するため。
  • 一貫した品質と多様性を備えた大規模かつ完全にアノテーションが施されたドローンデータセットを収集する課題を克服するため。
  • 包括的なデータセットとコンテストワークショップを通じて、ドローンプラットフォームにおけるオブジェクト検出および追跡アルゴリズムの評価のためのベンチマークを確立するため。
  • ECCV 2018およびICCV 2019で国際コンテストを主催することで、100以上のグローバルチームを惹きつけ、研究の進展を促進するため。
  • 詳細な分析とデータおよび結果の公開を通じて、今後のドローンベースの動画分析における進歩の基盤を提供するため。

提案手法

  • VisDroneデータセットは、中国の北から南まで広がる14都市の多様な都市部および準都市部から収集されたもので、地理的および環境的多様性を確保する。
  • データセットには、画像オブジェクト検出、動画オブジェクト検出、単一オブジェクト追跡、複数オブジェクト追跡の4つの異なるトラックが含まれており、それぞれが完全な手動アノテーションが施されている。
  • このデータセットは、視覚的分析のための最大の公開可能ドローンベースのベンチマークであり、アルゴリズムの広範な評価を可能にする。
  • 著者らは、ECCV 2018およびICCV 2019で、VisDroneデータセット上でアルゴリズムの進捗を評価・追跡する国際的コンテストワークショップを主催した。
  • すべてのデータと結果は、専用のウェブサイトを通じて公開されており、オープンな研究と再現可能性を促進する。
  • 本論文は、ドローンベースのオブジェクト検出および追跡における既存のデータセットとベンチマークを包括的にレビューし、主な制限要因と機会を特定している。

実験結果

リサーチクエスチョン

  • RQ1オブジェクト検出および追跡のための大規模かつ完全にアノテーションが施されたドローンベースのデータセットを収集するにあたり、主な課題は何であるか?
  • RQ2スケール、多様性、アノテーション品質の観点から、VisDroneデータセットは既存のベンチマークとどのように比較されるか?
  • RQ3ドローンベースのオブジェクト検出および追跡アルゴリズムにおける現在の性能限界とボトルネックは何か?
  • RQ4VisDroneのような大規模なベンチマークは、空中動画分析分野における進歩をどのように加速できるか?
  • RQ5ドローンプラットフォームにおける視覚的分析を進歩させるにあたり、最も有望な今後の研究の方向性は何か?

主な発見

  • VisDroneは、中国の14の多様な都市で収集された、オブジェクト検出および追跡のための最大の公開可能ドローン撮影データセットである。
  • このデータセットは、画像検出、動画検出、単一オブジェクト追跡、複数オブジェクト追跡の4つの異なるタスクをサポートしており、それぞれが完全な手動アノテーションが施されている。
  • ECCV 2018およびICCV 2019でのコンテストを通じて、国際的なベンチマークが実現され、世界中から100以上のチームが参加した。
  • 著者らは、アノテーションの一貫性、スケール、地域間の環境変動性といったデータ収集における顕著な課題を特定した。
  • 本論文は、VisDroneがドローンベースの動画分析分野における研究の進展を促進する強固な基盤を提供していると結論づけ、アルゴリズム開発のための今後の方向性を提案している。
  • すべてのデータセットと結果は、専用のウェブサイトを通じて公開されており、分野におけるオープンサイエンスと再現可能性を促進している。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。