[論文レビュー] Alignment-Aware and Reliability-Gated Multimodal Fusion for Unmanned Aerial Vehicle Detection Across Heterogeneous Thermal-Visual Sensors
本論文は、異種の熱画像-視覚 UAV データを統合するための2つの融合戦略 RGIF と RGMAF を提案し、モダリティ間で検出の頑健性を向上させる。大規模なマルチセンサー UAV データセット上で、RGIF は mAP を向上させ、RGMAF は再現率を向上させる。
Reliable unmanned aerial vehicle (UAV) detection is critical for autonomous airspace monitoring but remains challenging when integrating sensor streams that differ substantially in resolution, perspective, and field of view. Conventional fusion methods-such as wavelet-, Laplacian-, and decision-level approaches-often fail to preserve spatial correspondence across modalities and suffer from annotation of inconsistencies, limiting their robustness in real-world settings. This study introduces two fusion strategies, Registration-aware Guided Image Fusion (RGIF) and Reliability-Gated Modality-Attention Fusion (RGMAF), designed to overcome these limitations. RGIF employs Enhanced Correlation Coefficient (ECC)-based affine registration combined with guided filtering to maintain thermal saliency while enhancing structural detail. RGMAF integrates affine and optical-flow registration with a reliability-weighted attention mechanism that adaptively balances thermal contrast and visual sharpness. Experiments were conducted on the Multi-Sensor and Multi-View Fixed-Wing (MMFW)-UAV dataset comprising 147,417 annotated air-to-air frames collected from infrared, wide-angle, and zoom sensors. Among single-modality detectors, YOLOv10x demonstrated the most stable cross-domain performance and was selected as the detection backbone for evaluating fused imagery. RGIF improved the visual baseline by 2.13% mAP@50 (achieving 97.65%), while RGMAF attained the highest recall of 98.64%. These findings show that registration-aware and reliability-adaptive fusion provides a robust framework for integrating heterogeneous modalities, substantially enhancing UAV detection performance in multimodal environments.
研究の動機と目的
- センサーが解像度、視点、FOV の違いを持つ場合の多モーダル UAV 検出の堅牢性のギャップに対処する。
- 空間対応を保ち、モダリティ間の信頼性に適応する融合手法を開発する。
- cross-domain の gains を示すため、大規模なマルチセンサ UAV データセットで評価する。
提案手法
- Registration-aware Guided Image Fusion (RGIF) は ECC ベースのアフィン登録とガイドフィルタリングを用いて熱の顕著性を保持し、構造を強化する。
- Reliability-Gated Modality-Attention Fusion (RGMAF) はアフィン登録と光学フロー登録を組み合わせ、信頼性重み付き注意機構で熱コントラストと視覚的シャープネスのバランスを取る。
- YOLOv10x は単一モダリティ検出器のクロスドメイン安定性評価の後、検出バックボーンとして選択される。
- MMFW-UAV データセット(赤外線、広角、ズームセンサー)で実験を実施(147,417 フレーム)。
- 手法はクロスドメインの頑健性を評価するため、ベースラインの視覚/熱融合アプローチと比較される。
実験結果
リサーチクエスチョン
- RQ1登録認識融合がヘテロジニアスな熱-視覚モダリティ間で空間対応を維持できるか(UAV検出)?
- RQ2信頼性ガイド付き注意が、モダリティの顕著性と解像度が異なる場合に検出を改善できるか?
- RQ3RGIF と RGMAF は大規模・多視点の UAV データセットで、単一モダリティのベースラインと比べてどうなのか?
- RQ4融合画像の安定したクロスドメイン性能を提供するバックボーン検出器はどれか?
主な発見
- RGIF は視覚ベースラインを 2.13% mAP@50 向上させ、97.65% を達成。
- RGMAF は再現率が最大の 98.64% を達成。
- YOLOv10x は fused imagery の評価において、単一モダリティ検出器の中で最も安定したクロスドメインバックボーンとして特定された。
- 結果は、登録認識と信頼性適応融合がマルチモーダル設定の UAV 検出を向上させることを示している。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。