QUICK REVIEW

[논문 리뷰] BeamVLM for Low-altitude Economy: Generative Beam Prediction via Vision-language Models

Chenran Kou, Changsheng You|arXiv (Cornell University)|2026. 02. 23.

UAV Applications and Optimization인용 수 0

한 줄 요약

BeamVLM은 UAV 빔 예측을 시각-언어 생성 태스크로 처리하며, 프리트레인된 비전-언어 모델에 프롬프트를 사용해 UAV 궤적과 환경을 공동으로 추론하여 정확도와 일반화를 향상시킨다.

ABSTRACT

For low-altitude economy (LAE), fast and accurate beam prediction between high-mobility unmanned aerial vehicles (UAVs) and ground base stations is of paramount importance, which ensures seamless coverage and reliable communications. However, existing deep learning-based beam prediction methods lack high-level semantic understanding of dynamic environments, resulting in poor generalization. On the other hand, the emerging large language model (LLM) based approaches show promise in enhancing generalization, but they typically lack rich environmental perception, thereby failing to capture fine-grained spatial semantics essential for precise beam alignment. To tackle these limitations, we propose in this correspondence a novel end-to-end generative framework for beam prediction, called BeamVLM, which treats beam prediction as a vision question answering task capitalizing on powerful existing vision-language models (VLMs). By projecting raw visual patches directly into the language domain and judiciously designing an instructional prompt, the proposed BeamVLM enables the VLM to jointly reason over UAV trajectories and environmental context. Last, experimental results on real-world datasets demonstrate that the proposed BeamVLM outperforms state-of-the-art methods in prediction accuracy and also exhibits superior generalization for other scenarios such as vehicle-to-infrastructure (V2I) beam prediction.

연구 동기 및 목표

저고도 경제 환경에서 고이동성을 가지는 UAV에 대해 빠르고 정확한 빔 예측의 필요성을 제시한다.
약한 시맨틱 씬 이해로 인해 전통적인 DL 기반 빔 예측기의 일반화 한계에 대응한다.
원시 시각 맥락과 작업 지시를 융합하여 견고한 빔 결정으로 이끄는 비전-언어 모델을 활용한다.
언어 토큰으로 빔 인덱스를 출력하는 엔드-투-엔드 생성적 BeamVLM 프레임워크를 제안한다.
UAV를 넘어 차량-인프라 간 시나리오로의 일반화를 입증한다.

제안 방법

BeamVLM을 Qwen2.5-VL에 기반해 생성적 비전-언어 태스크로 빔 예측을 형식화한다.
원시 시각 패치를 언어 공간으로 투사하여 UAV 궤적과 환경에 대한 다중 모달 추론을 가능하게 한다.
데이터셋 정의, 작업 제약 조건 및 맥락 사전 정보를 포함하는 지시적 프롬프트를 사용하여 빔 생성을 안내한다.
효율적 적응을 위한 비전 트랜스포머 시각 인코더와 LoRA 기반 미세조정을 사용한다.
생성된 토큰과 실제 빔 인덱스 간의 교차 엔트로피를 최소화하기 위해 교사 강제를 사용해 학습한다.
생성된 토큰을 코드북으로의 디토큰화(de-tokenization)를 통해 빔 인덱스로 디코딩한다 ˆ.

실험 결과

연구 질문

RQ1구조화된 프롬프트를 갖춘 비전-언어 모델이 기존 DL 방법보다 빔 예측 정확도를 향상시킬 수 있는가?
RQ2환경 맥락에 대한 다중 모달 추론이 V2I와 같은 새로운 시나리오에 대한 일반화를 향상시키는가?
RQ3생성된 빔 시퀀스의 정확도에 대한 프롬프트 설계의 영향은 무엇인가?
RQ4대형 VL 모델에서 LoRA를 사용한 엔드-투-엔드 생성적 BeamVLM이 빔 예측에 대해 확장 가능한가?
RQ5기본 baselines와 비교할 때 UAV 및 V2I 설정에서 BeamVLM의 성능은 어떠한가?

주요 결과

Model	Total Para.	Trainable Para.	Runtime (s)
LSTM	104.4K	104.4K	7.2e-5
BeamLLM	178.3M	53.9M	2.3e-3
BeamVLM (Ours)	3.1B	42.2M	9.5e-2

BeamVLM은 UAV 시나리오에서 t+1에서 Top-1 정확도 83.3%, t+5에서 71.4%를 달성하였고 (BeamVLM은 LSTM보다 10.8% 포인트 우수).
BeamVLM은 시점에 관계없이 높은 Top-3 정확도를 유지하며 t+5에서 BeamLLM과 LSTM보다 각각 91.9%, 88.5%로 우수하다.
V2I 일반화에서 BeamVLM은 t+1에서 72.1% Top-1, t+5에서 52.9%에 도달하여 기준선 대비 최대 16.1% 포인트(Top-1) 및 4% 포인트(Top-3) 우수하다.
어블레이션 결과 프롬프트 가이던스를 제거하면 Top-1 정확도가 약 3.6–3.8 포인트 낮아져 프례프트의 중요성을 확인시킨다.
BeamVLM은 핸드메이드 출력 헤드를 필요로 하지 않는 견고한 일반화와 엔드-투-엔드 생성적 빔 예측을 보여준다.
강력한 다모달 추론으로 인해 BeamVLM은 일부 베이스라인보다 실행 시간이 더 길다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.