[論文レビュー] UAV-DETR: Efficient End-to-End Object Detection for Unmanned Aerial Vehicle Imagery
UAV-DETRは、UAV画像に特化したエンドツーエンドのDETRベース検出器で、周波数強化を伴うマルチスケール特徴融合、周波数注目のダウンサンプリング、意味的整合を導入し、小さな物体や遮蔽物の検出性能を向上させつつリアルタイム推論を実現します。
Unmanned aerial vehicle object detection (UAV-OD) has been widely used in various scenarios. However, most existing UAV-OD algorithms rely on manually designed components, which require extensive tuning. End-to-end models that do not depend on such manually designed components are mainly designed for natural images, which are less effective for UAV imagery. To address such challenges, this paper proposes an efficient detection transformer (DETR) framework tailored for UAV imagery, i.e., UAV-DETR. The framework includes a multi-scale feature fusion with frequency enhancement module, which captures both spatial and frequency information at different scales. In addition, a frequency-focused down-sampling module is presented to retain critical spatial details during down-sampling. A semantic alignment and calibration module is developed to align and fuse features from different fusion paths. Experimental results demonstrate the effectiveness and generalization of our approach across various UAV imagery datasets. On the VisDrone dataset, our method improves AP by 3.1\% and $ ext{AP}_{50}$ by 4.2\% over the baseline. Similar enhancements are observed on the UAVVaste dataset. The project page: https://github.com/ValiantDiligent/UAV-DETR
研究の動機と目的
- エンドツーエンドのUAV物体検出が、手動で設計された部品や調整を避ける必要性を動機づける。
- UAV画像の小さな物体と遮蔽の課題に適したエンドツーエンドのDETR風フレームワークを開発する。
- 高周波数のディテールを保持するマルチスケール特徴融合を導入する。
- 解像度低下時に空間的ディテールを保持する周波数中心のダウンサンプリングモジュールを提案する。
- 異なる融合経路からの特徴を組み合わせる意味的整合とキャリブレーションモジュールを設計する。
提案手法
- RT-DETRに基づく三つのモジュール:MSFF-FE、FD、SACを備えたUAV-DETRを提案する。
- MSFF-FEは多段階で空間情報と周波数情報を組み合わせることにより高周波数ディテールを保持する。
- FDは平行経路と周波数中心の処理を通じて二重ドメイン情報を保持しつつ特徴をダウンサンプリングする。
- SACは学習された2Dオフセットとゲーティング機構を用いて、異なる融合経路からの特徴を整合・融合する。
- Inner-SIoU損失を導入して小さな物体検出と収束を改善する。
実験結果
リサーチクエスチョン
- RQ1周波数ドメイン情報をマルチスケールの空間特徴と統合してUAV物体検出を改善できるか。
- RQ2周波数中心のダウンサンプリング戦略は、効率を損なうことなく小さな物体のディテールを保持できるか。
- RQ3マルチパス融合特徴の意味的整合はエンドツーエンドのUAV-OD性能を改善するか。
- RQ4VisDroneとUAVVasteデータセット上で、UAV-DETRはリアルタイム検出器と比べてどうか。
- RQ5Inner-SIoU損失がUAV画像の境界ボックス回帰に与える影響はどの程度か。
主な発見
| モデル | 公表 | 入力サイズ | パラメータ(M) | GFLOPs | AP | AP 50 |
|---|---|---|---|---|---|---|
| UAV-DETR-R18 (Ours) | - | 640×640 | 20 | 77 | 29.8 | 48.8 |
| UAV-DETR-R50 (Ours) | - | 640×640 | 42 | 170 | 31.5 | 51.1 |
| RT-DETR-R18 | CVPR2024 | 640×640 | 20 | 60 | 26.7 | 44.6 |
- VisDroneで、UAV-DETR-R18はRT-DETR-R18ベースラインよりAPを3.1%、AP50を4.2%向上させ、UAV-DETR-R50はAPを3.1%、AP50を4.1%向上させた。
- UAV-DETR-R18は<100 GFLOPsの検出器の中で最先端の精度を達成している。
- UAVASTEでは、UAV-DETR-R18がRT-DETRベースラインよりAPとAP50でそれぞれ3.3%および平均3.6%の改善を達成。
- アブレーションによりInner-SIoU、MSFF-FE、FD、SACがそれぞれ精度向上に寄与し、すべてのモジュールを組み合わせた場合が最も高いAP/AP50を達成する。
- モデルは同等の計算予算で他の検出器より高い精度を維持しつつリアルタイム推論速度(FPS)を維持する。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。