QUICK REVIEW

[論文レビュー] Open-Text Aerial Detection: A Unified Framework For Aerial Visual Grounding And Detection

Guoting Wei, Xia Yuan|arXiv (Cornell University)|Feb 8, 2026

Multimodal Machine Learning Applications被引用数 0

ひとこと要約

OTA-Det は、オープンボキャブラリ飛行機検出（OVAD）とリモートセンサ視覚 grounding（RSVG）を単一のリアルタイムフレームワークに統合し、マルチ粒度のテキスト入力と高密度の監視・属性レベルの整合を持つマルチターゲット検出をサポートします。

ABSTRACT

Open-Vocabulary Aerial Detection (OVAD) and Remote Sensing Visual Grounding (RSVG) have emerged as two key paradigms for aerial scene understanding. However, each paradigm suffers from inherent limitations when operating in isolation: OVAD is restricted to coarse category-level semantics, while RSVG is structurally limited to single-target localization. These limitations prevent existing methods from simultaneously supporting rich semantic understanding and multi-target detection. To address this, we propose OTA-Det, the first unified framework that bridges both paradigms into a cohesive architecture. Specifically, we introduce a task reformulation strategy that unifies task objectives and supervision mechanisms, enabling joint training across datasets from both paradigms with dense supervision signals. Furthermore, we propose a dense semantic alignment strategy that establishes explicit correspondence at multiple granularities, from holistic expressions to individual attributes, enabling fine-grained semantic understanding. To ensure real-time efficiency, OTA-Det builds upon the RT-DETR architecture, extending it from closed-set detection to open-text detection by introducing several high efficient modules, achieving state-of-the-art performance on six benchmarks spanning both OVAD and RSVG tasks while maintaining real-time inference at 34 FPS.

研究の動機と目的

OVAD と RSVG を単一の統一フレームワークに橋渡しし、空撮画像におけるマルチ粒度の意味理解とマルチターゲット検出を可能にする。
OVAD と RSVG の目的と監視密度を joint 学習のために再定式化する。
全体表現と個別属性を結ぶdense semantic alignment を導入する。
34 FPS のオープンテキスト検出をサポートする効率的なアーキテクチャ（RT-DETR を基礎）を開発する。
六つの OVAD および RSVG ベンチマークで最先端の性能を示しつつリアルタイム推論を維持する。

提案手法

タスク再定式化：RSVG を純粋な局所化から共同分類・局所化へ変換し、画像レベルの注釈を統合して OVAD および RSVG データセット全体にわたる密な監 supervision を作成する。
Dense Semantic Alignment：参照表現を属性集合に分解するためにLLMを用い、Unified Correspondence Matrices を構築してマルチ粒度の視覚言語監視を可能にする。
属性レベルデータ分解：表現から対象中心の属性（カテゴリ、色、空間関係）を逐語的サブストリングとして抽出し分類する。
Unified Correspondence Matrix：Object-Query (Q) と Object-Attribute (A) のマトリクスを維持し、M_map を用いることで多ラベル・一対多のgroundingと階層的属性集約を可能にする。
OTA-Det アーキテクチャ：Multi-Modality Backbone（画像エンコーダ＋クエリ・属性用テキストエンコーダ）と、 holistic なクエリと属性の類似度ロジットを別々に計算する Decoupled Multi-Granular Head を採用する。対照学習S(V,T) ヘッドを用いる。
Multi-Task Loss：局所化損失と意味的整合損失を MAL（Matchability-Aware Loss）で結合し、IoU をソフトターゲットとして視覚と言語信号を整合させる。

実験結果

リサーチクエスチョン

RQ1OVAD と RSVG を単一のフレームワークに統合して、空撮画像におけるマルチターゲット検出と複雑な参照表現を同時にサポートできるか。
RQ2Dense, multi-granular semantic alignment は全体文レベルのアプローチと比べてグラウンディングの精度を向上させ、意味的偽整合を減らすか。
RQ3OVAD と RSVG データでの joint 学習はオープンボキャブラリ・マルチターゲット検出に有益な dense supervision を提供しつつリアルタイム性能を維持できるか。
RQ4解離したマルgranular ヘッドと属性レベルの監督は，細かな属性理解と構成的クエリにどのように影響するか。

主な発見

OTA-Det は OVAD と RSVG の6つのベンチマークにおいて最先端の性能を達成。
OTA-Mix データセットでの joint 学習は OVAD 指標（AP@50, mAP）と RSVG 指標（Acc@0.5）で強力な結果を生み、ベースラインより改善を示す。
OTA-Det は 34 FPS のリアルタイム推論を維持。
画像レベル注釈の集約と属性レベル整合が意味的偽整合を大幅に減少させ、Attr-Align スコアを改善することをアブレーションで示唆。
解離したマル Granular Head は holistic と属性レベル信号間の干渉を防ぐことで整合を改善。
単一タスクの学習は RSVG の性能をわずかに上回る可能性があるが、統一モデルは joint 学習でタスクを横断して競争力を保つ。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。