[論文レビュー] Towards Governance-Oriented Low-Altitude Intelligence: A Management-Centric Multi-Modal Benchmark With Implicitly Coordinated Vision-Language Reasoning Framework
GovLA-10Kを導入した低高度統治のためのマネジメント指向のマルチモーダルベンチマークであり、GovLA-Reasonerは検出器やLLMの微調整を行わずに視覚 grounding をLLMsと協調させる暗黙的特徴アダプターフレームワーク。これにより統治志向のキャプションを実現する。
Low-altitude vision systems are becoming a critical infrastructure for smart city governance. However, existing object-centric perception paradigms and loosely coupled vision-language pipelines are still difficult to support management-oriented anomaly understanding required in real-world urban governance. To bridge this gap, we introduce GovLA-10K, the first management-oriented multi-modal benchmark for low-altitude intelligence, along with GovLA-Reasoner, a unified vision-language reasoning framework tailored for governance-aware aerial perception. Unlike existing studies that aim to exhaustively annotate all visible objects, GovLA-10K is deliberately designed around functionally salient targets that directly correspond to practical management needs, and further provides actionable management suggestions grounded in these observations. To effectively coordinate the fine-grained visual grounding with high-level contextual language reasoning, GovLA-Reasoner introduces an efficient feature adapter that implicitly coordinates discriminative representation sharing between the visual detector and the large language model (LLM). Extensive experiments show that our method significantly improves performance while avoiding the need of fine-tuning for any task-specific individual components. We believe our work offers a new perspective and foundation for future studies on management-aware low-altitude vision-language systems.
研究の動機と目的
- 低高度知覚を網羅的な物体認識から、統治に関連する異常理解へと絞り込む。
- 都市の統治と関連する機能的に顕著なターゲットに焦点を当てたベンチマーク GovLA-10K を提供する。
- 基礎となるコンポーネントの微調整を行わず、 grounding と言語を密に統合する統一的推論フレームワーク GovLA-Reasoner を開発する。
- 視覚的証拠と統治ルールに基づく実用的なマネジメント提案を可能にする。
提案手法
- 公開UAV画像と自社飛行からの GovLA-10Kデータ収集により、フィルタリング後に10,572枚の高品質画像を得た。
- 統治ニーズを反映する9つの機能的に顕著なカテゴリ(例:違法駐車車両、建設廃材、地表ごみ)を設定。
- 2段階の半自動注釈:手動境界ボックスとカテゴリラベル、その後MMGroundingDINO(IoU閾値0.5)とVLM生成キャプションを用いた検出器支援検証。
- 構造化プロンプトを用いて管理提案を含む文脈キャプションを生成し、専門家が統治関連性と正確性を確認。
- GovLA-Reasonerは、 grounding特徴(F_img、F_query、F_decoder)を圧縮・統合する軽量な特徴アダプターを導入し、それをLLMへ渡してエンドツーエンドの推論を実現。
- アダプターの学習は軽量でタスク特異的。検出器とLLMは固定。
実験結果
リサーチクエスチョン
- RQ1低高度統治タスクにおけるマネジメント指向のマルチモーダルベンチマークの価値は何か。
- RQ2暗黙的特徴アダプターを持つ統一視覚–言語推論フレームワークは、検出器やLLMの微調整なしで統治志向のキャプションを改善できるか。
- RQ3機能的に顕著で統治駆動のターゲットは、低高度都市風景の網羅的な物体注釈と比較してどんな性能を示すか。
- RQ4 grounding特徴と言語推論の暗黙的協調は、VLMベースのパイプラインにおける情報損失とエラー蓄積を低減できるか。
主な発見
| Model | BLEU-1 | BLEU-2 | BLEU-3 | BLEU-4 | METEOR | ROUGE-L | CIDEr-D |
|---|---|---|---|---|---|---|---|
| LLaVA-OneVision-1.5-4B | 36.27 | 21.24 | 12.56 | 7.61 | 19.10 | 25.36 | 4.84 |
| LLaVA-OneVision-1.5-8B | 30.61 | 18.28 | 10.86 | 6.78 | 17.25 | 24.82 | 2.69 |
| InternVL3-8B | 31.72 | 17.27 | 9.14 | 5.14 | 17.68 | 22.39 | 2.72 |
| InternVL3.5-4B | 31.01 | 17.01 | 9.34 | 5.28 | 17.33 | 22.61 | 2.71 |
| InternVL3.5-8B | 34.56 | 18.82 | 10.06 | 5.64 | 18.28 | 22.44 | 3.01 |
| Qwen2.5-VL-3B | 37.17 | 21.25 | 12.71 | 8.04 | 19.21 | 25.01 | 5.26 |
| Qwen2.5-VL-7B | 36.15 | 21.51 | 13.20 | 8.65 | 19.54 | 25.63 | 5.07 |
| Qwen3-VL-4B | 45.77 | 27.72 | 17.41 | 11.36 | 23.25 | 28.92 | 10.22 |
| Qwen3-VL-8B | 40.88 | 25.64 | 16.54 | 10.97 | 21.73 | 29.44 | 10.21 |
| GovLA-Reasoner (ours) | 53.32 | 37.10 | 26.98 | 20.31 | 26.63 | 37.97 | 20.31 |
- GovLA-10Kは9つの統治関連ターゲットカテゴリに焦点を当て、整列した場面キャプションとマネジメント提案を提供。
- MMGrounding-DINOベースの grounding が強力な検出性能を達成し、統治タスクにおけるテキスト指向 grounding の価値を強調。
- GovLA-Reasoner は、主流のVLMベースのベースラインに対してキャプション指標を大きく改善し、報告された結果で4B LLMを用いてBLEU-1が53.32、CIDEr-Dが20.31。
- 特徴アダプター方式は検出器やLLMの微調整を行わずにエンドツーエンドの視覚条件付けを可能にし、効率と性能を向上。
- アブレーション研究はアダプターが必要であることを示し、入力特徴グループ(F_img、F_query、F_decoder)の全てを使用するのが最良の結果をもたらす。アダプター内の2つのTransformer層が最適なトレードオフを提供。
- GovLA-Reasoner は複数の指標でより大きなモデルを上回り、パラメータ効率と暗黙的協調の効果を示す。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。