Skip to main content
QUICK REVIEW

[論文レビュー] Anti-UAV: A Large Multi-Modal Benchmark for UAV Tracking

Nan Jiang, Kuiran Wang|arXiv (Cornell University)|Jan 21, 2021
Video Surveillance and Tracking Methods参考文献 94被引用数 68
ひとこと要約

本論文は Anti-UAV を紹介します。大規模な RGB-T UAV 追跡ベンチマークで、318 video pairs および 580k+ bounding boxes を備え、さらにマルチモーダルデータ全体での UAV 追跡を改善するデュアルフロー意味的一貫性(DFSC)トレーニング戦略を提案します。

ABSTRACT

Unmanned Aerial Vehicle (UAV) offers lots of applications in both commerce and recreation. With this, monitoring the operation status of UAVs is crucially important. In this work, we consider the task of tracking UAVs, providing rich information such as location and trajectory. To facilitate research on this topic, we propose a dataset, Anti-UAV, with more than 300 video pairs containing over 580k manually annotated bounding boxes. The releasing of such a large-scale dataset could be a useful initial step in research of tracking UAVs. Furthermore, the advancement of addressing research challenges in Anti-UAV can help the design of anti-UAV systems, leading to better surveillance of UAVs. Besides, a novel approach named dual-flow semantic consistency (DFSC) is proposed for UAV tracking. Modulated by the semantic flow across video sequences, the tracker learns more robust class-level semantic information and obtains more discriminative instance-level features. Experimental results demonstrate that Anti-UAV is very challenging, and the proposed method can effectively improve the tracker's performance. The Anti-UAV benchmark and the code of the proposed approach will be publicly available at https://github.com/ucas-vg/Anti-UAV.

研究の動機と目的

  • 長距離 UAV 追跡を研究するために、対ペアの非アラインシーケンスを含む大規模なマルチモーダル UAV 追跡データセット(RGB および赤外線)を導入する。
  • マルチモーダルおよびクロスシーケンスシナリオでの UAV 追跡を評価するための包括的なベースラインと評価プロトコルを提供する。
  • DFSC(デュアルフロ―意味的一貫性)を提案し、UAV 追跡のクラスレベルおよびインスタンスレベルの特徴を頑健に学習する。
  • データセット属性、困難なシナリオ、UAV 状態認識に特化した評価指標についての洞察を提供する。

提案手法

  • 580k+ の手動アノテーション付き境界ボックスと多様なシーンを備えた 318 RGB-T 動画ペアの UAV 追跡ベンチマークを構築する。
  • デュアルフロー意味的一貫性(DFSC)トレーニングを提案する:シーケンス間のクラスレベル意味モジュレーション(CSM)とシーケンス内のインスタンスレベル意味モジュレーション(ISM)。
  • CSM ではシーケンス間の UAV 特徴を、ISM では現在のシーケンスの ROI 特徴を用いて検索領域提案を調整する。
  • クエリに guided された RPN と、その後の RCNN ステージを用いて、修正された特徴を分類と回帰に統合する。
  • RGB および IR データ向けの GlobalTrack や Faster RCNN の適応を含む、プロトコル別のトレーニング設定とベースラインを提供する。

実験結果

リサーチクエスチョン

  • RQ1現在のトラッカーは、非アラインシーケンスを有する大規模なマルチモーダル UAV 追跡ベンチマーク(RGB-T)でどれだけ性能を出せるか。
  • RQ2クロスシーケンス意味モジュレーションは、1つのオブジェクトカテゴリしか存在しない場合でもクラスレベルの識別性を改善できるか。
  • RQ3シーケンス内でのインスタンスレベル意味モジュレーションは、似た UAV インスタンスやディストラクター間の識別を高めるか。
  • RQ4アラインメントが取れていない RGB-T データが UAV 追跡性能と評価に与える影響はどうか。
  • RQ5Anti-UAV での UAV 追跡能力を最もよく明らかにするトレーニング戦略と評価プロトコルは何か。

主な発見

  • Anti-UAV は 318 RGB-T video pairs と 580k bounding boxes 以上を提供し、分析のための複数の属性を含む。
  • DFSC はクロスシーケンスおよびシーケンス内の意味モジュレーションを活用することで、Anti-UAV 上のベースラインより追跡性能を大幅に向上させた。
  • 実験は、トラッカーと属性間での性能の大きなばらつきを示し、データセットが UAV 追跡の困難さを強調している。
  • 評価プロトコル I–III は、可視データ/IR データ、トレーニングデータの使用、非アライン RGB-T ペアを含むマルチモーダル統合を可能にする。
  • RF ベースおよび深層トラッカーは異なる利得を示し、DFSC はベンチマーク上のいくつかの最先端トラッカーと比較して顕著な改善を達成した。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。