Skip to main content
QUICK REVIEW

[논문 리뷰] MapViT: A Two-Stage ViT-Based Framework for Real-Time Radio Quality Map Prediction in Dynamic Environments

Cyril Shih-Huan Hsu, Xi Li|arXiv (Cornell University)|2026. 01. 22.
Wireless Signal Modulation Classification인용 수 0
한 줄 요약

MapViT은 동적 환경에서 환경 변화와 그로 인한 무선 품질 맵(RQMap)을 예측하는 2단계 비전 트랜스포머 프레임워크를 도입하여 실시간 추론과 기하 기초 모델을 통한 데이터 효율적 전이를 달성합니다.

ABSTRACT

Recent advancements in mobile and wireless networks are unlocking the full potential of robotic autonomy, enabling robots to take advantage of ultra-low latency, high data throughput, and ubiquitous connectivity. However, for robots to navigate and operate seamlessly, efficiently and reliably, they must have an accurate understanding of both their surrounding environment and the quality of radio signals. Achieving this in highly dynamic and ever-changing environments remains a challenging and largely unsolved problem. In this paper, we introduce MapViT, a two-stage Vision Transformer (ViT)-based framework inspired by the success of pre-train and fine-tune paradigm for Large Language Models (LLMs). MapViT is designed to predict both environmental changes and expected radio signal quality. We evaluate the framework using a set of representative Machine Learning (ML) models, analyzing their respective strengths and limitations across different scenarios. Experimental results demonstrate that the proposed two-stage pipeline enables real-time prediction, with the ViT-based implementation achieving a strong balance between accuracy and computational efficiency. This makes MapViT a promising solution for energy- and resource-constrained platforms such as mobile robots. Moreover, the geometry foundation model derived from the self-supervised pre-training stage improves data efficiency and transferability, enabling effective downstream predictions even with limited labeled data. Overall, this work lays the foundation for next-generation digital twin ecosystems, and it paves the way for a new class of ML foundation models driving multi-modal intelligence in future 6G-enabled systems.

연구 동기 및 목표

  • 로봇 시스템에서의 동적 무선 전파를 다루기 위해 환경 변화와 관련 무선 품질 맵을 예측합니다.
  • LLM 사전학습-미세조정에서 영감을 받은 2단계 학습 패러다임을 활용합니다.
  • 깊이 맵 시퀀스로부터 기하 기초 모델을 개발하여 데이터 효율성과 전이 가능성을 향상시킵니다.
  • 리소스 제약 플랫폼에서 정확도와 런타임 측면에서 ViT를 CNN 및 MLP 기준선과 평가합니다.

제안 방법

  • 단계 1: ViT 기반 인코더를 사용한 엔코더-디코더 구조로 레이블 없는 깊이 맵에서 환경 역학 및 깊이 분포를 학습하는 자기지도 사전 학습.
  • 단계 2: 단계 1의 인코더를 초기화로 사용하는 감독학습 미세조정으로, 깊이 맵 입력으로부터 단계 2 RQMaps를 출력하는 무선 품질 맵 예측기를 학습합니다.
  • 깊이 맵은 3D SLAM 포인트 클라우드를 2D 평면에 투사하여 기하를 포착합니다.
  • Generative 증강은 다양한 기하 변형을 만들어 레이 트레이서를 통해 학습 데이터를 풍부하게 평가합니다.
  • 두 단계 학습은 기하 학습을 무선 전파 모델링과 분리하여 데이터 효율성과 일반화를 개선합니다.

실험 결과

연구 질문

  • RQ1ViT 기반의 2단계 프레임워크가 동적 설정에서 환경 변화와 RQMaps를 정확하게 예측할 수 있는가?
  • RQ2ViT와 CNN, MLP 간의 예측 정확도 및 런타임 차이가 CPU/GPU에서 어떠한가?
  • RQ3기하 자기지도학습(GFM)이 다운스트림 기하 기반 작업으로의 데이터 효율성과 전이를 개선하는가?

주요 결과

표 I: 환경 변화에 대한 PSNR 예측(PSNR dB) - Stage 1표 II: 영역별 RQMaps의 PSNR(dB) - Stage 2표 III: 기하 기반 맵 및 하류 전이(무선, 조명, 온도)
모델PSNR (dB)
ViT29.01
CNN27.53
MLP24.06
Stage 2 (Area 1) ViT25.12
Stage 2 (Area 2) ViT25.11
Stage 2 (Area 3) ViT22.38
Stage 2 (Area 4) ViT29.48
Stage 2 (Area 5) ViT21.87
Stage 2 (Global) ViT21.00
Stage 2 (Area 1) CNN22.41
Stage 2 (Area 2) CNN23.28
Stage 2 (Area 3) CNN21.29
Stage 2 (Area 4) CNN26.63
Stage 2 (Area 5) CNN21.32
Stage 2 (Global) CNN20.36
Stage 2 (Area 1) MLP22.52
Stage 2 (Area 2) MLP22.12
Stage 2 (Area 3) MLP20.98
Stage 2 (Area 4) MLP25.58
Stage 2 (Area 5) MLP20.39
Stage 2 (Global) MLP19.69
Stage 2 (Area 1) ViT*21.70
Stage 2 (Area 2) ViT*19.24
Stage 2 (Area 3) ViT*17.19
Stage 2 (Area 4) ViT*24.68
Stage 2 (Area 5) ViT*15.93
Stage 2 (Global) ViT*14.50
Stage 2 (Area 1) CNN*21.70
Stage 2 (Area 2) CNN*16.95
Stage 2 (Area 3) CNN*16.03
Stage 2 (Area 4) CNN*22.88
Stage 2 (Area 5) CNN*13.90
Stage 2 (Global) CNN*14.06
Table III (Geometry tasks)Radio | Illumination | Temperature
  • ViT 백본을 가진 MapViT가 1단계 깊이 맵 예측에서 CNN 및 MLP보다 더 나은 PSNR을 달성하였으며(PSNR: ViT 29.01 dB 대 CNN 27.53 dB; MLP 24.06 dB).
  • 2단계 RQMap 예측은 CPU 및 GPU 플랫폼에서 ViT가 가장 우수한 정확도-효율성 트레이드오프를 제공하며, 레이 트레이서 대비 실시간 추론(~1 ms)으로 평가됩니다.
  • ViT는 여러 창고 영역에서 더 높은 지역 PSNR을 제공하며 CNN 및 MLP를 능가하고 분포 밖 데이터에서도 우위를 유지합니다(ViT* 대 CNN*).
  • 단계 1 사전 학습(GFM)은 하류 기하 작업에 대한 데이터 효율성을 향상시키며, 더 적은 레이블 샘플로 더 높은 PSNR과 더 빠른 수렴을 제공합니다.
  • 두 단계 학습은 라벨링 노력과 계산 비용을 감소시키면서 하류 다중 모달 작업용 재사용 가능한 기초 모델을 가능하게 합니다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.