QUICK REVIEW

[論文レビュー] BeamVLM for Low-altitude Economy: Generative Beam Prediction via Vision-language Models

Chenran Kou, Changsheng You|arXiv (Cornell University)|Feb 23, 2026

UAV Applications and Optimization被引用数 0

ひとこと要約

BeamVLMは UAV ビーム予測を生成型ビジョン言語タスクとして扱い、事前学習済みのビジョン言語モデルとプロンプトを用いて UAV 軌道と環境を共同で推論し、精度と一般化を向上させる。

ABSTRACT

For low-altitude economy (LAE), fast and accurate beam prediction between high-mobility unmanned aerial vehicles (UAVs) and ground base stations is of paramount importance, which ensures seamless coverage and reliable communications. However, existing deep learning-based beam prediction methods lack high-level semantic understanding of dynamic environments, resulting in poor generalization. On the other hand, the emerging large language model (LLM) based approaches show promise in enhancing generalization, but they typically lack rich environmental perception, thereby failing to capture fine-grained spatial semantics essential for precise beam alignment. To tackle these limitations, we propose in this correspondence a novel end-to-end generative framework for beam prediction, called BeamVLM, which treats beam prediction as a vision question answering task capitalizing on powerful existing vision-language models (VLMs). By projecting raw visual patches directly into the language domain and judiciously designing an instructional prompt, the proposed BeamVLM enables the VLM to jointly reason over UAV trajectories and environmental context. Last, experimental results on real-world datasets demonstrate that the proposed BeamVLM outperforms state-of-the-art methods in prediction accuracy and also exhibits superior generalization for other scenarios such as vehicle-to-infrastructure (V2I) beam prediction.

研究の動機と目的

高移動性UAVの低高度経済シナリオにおける高速で正確なビーム予測を動機づける。
弱い意味理解のため従来のDLベースのビーム予測器の一般化の限界に対処する。
生の視覚コンテキストとタスク指示を統合して頑健なビーム決定を行うために、ビジョン言語モデルを活用する。
ビームインデックスを言語トークンとして出力するエンドツーエンドの生成型BeamVLMフレームワークを提案する。
UAV以外の車両-インフラストラクチャ間のシナリオへの一般化を実証する。

提案手法

BeamVLMをQwen2.5-VL上に構築し、生成型ビジョン言語タスクとしてビーム予測を定式化する。
RAWの視覚パッチを言語空間へ射影し、UAVの軌道と環境についてのマルチモーダル推論を可能にする。
データセット定義、タスク制約、文脈的事前知識を含む instructional prompt を使用してビーム生成を誘導する。
ビジョン変換器（Vision Transformer）ベースの視覚エンコーダとLoRAを用いたファインチューニングで効率的な適応を図る。
生成トークンと真のビームインデックスとのクロスエントロピーを最小化する教師強制で訓練する。
トークンをデトークナイズしてコードブックのビームインデックスへデコードする。

実験結果

リサーチクエスチョン

RQ1構造化されたプロンプトを持つビジョン言語モデルは、従来のDL手法よりビーム予測精度を向上させるか。
RQ2環境コンテキストを含むマルチモーダル推論は、V2Iのような新しいシナリオへの一般化を高めるか。
RQ3プロンプト設計が生成ビーム系列の精度に与える影響はどれほどか。
RQ4LoRAを大規模VLモデルへ適用したエンドツーエンド生成BeamVLMはビーム予測に対してスケーラブルか。
RQ5BeamVLMは UAV および V2I 設定でベースラインと比較してどの程度性能を発揮するか。

主な発見

Model	Total Para.	Trainable Para.	Runtime (s)
LSTM	104.4K	104.4K	7.2e-5
BeamLLM	178.3M	53.9M	2.3e-3
BeamVLM (Ours)	3.1B	42.2M	9.5e-2

BeamVLMは UAV シナリオで t+1 におけるTop-1 精度83.3%、t+5 におけるTop-1 71.4%を達成（BeamVLMは LSTMより10.8%高い）。
BeamVLMは全ホライズンで高いTop-3精度を維持し、t+5でBeamLLMとLSTMを上回る（それぞれ91.9%、88.5%）。
V2I一般化では BeamVLMは t+1のTop-1 72.1%、t+5のTop-1 52.9%を達成し、ベースラインを最大16.1%ポイント（Top-1）、4%ポイント（Top-3）上回る。
アブレーション実験でプロンプト誘導を削除するとTop-1精度が約3.6～3.8ポイント低下し、プロンプトの重要性を確認した。
BeamVLMは手作業の出力ヘッドなしで頑健な一般化とエンドツーエンドの生成的ビーム予測を示す。
BeamVLMは、より強力なマルチモーダル推論のために他のベースラインより実行時が長くなる場合がある。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。