Skip to main content
QUICK REVIEW

[논문 리뷰] Robust Beam Codebooks for mmWave/THz Systems: Toward a Stochastic RL Approach

Anouar Nechi, Rainer Buchty|arXiv (Cornell University)|2026. 03. 20.
Millimeter-Wave Propagation and Modeling인용 수 0
한 줄 요약

논문은 빔 코드북 설계를 위한 다중 에이전트 강화 학습이 특히 Soft Actor-Critic (SAC)을 사용할 때 하드웨어 왜곡과 노이즈 피드백 하에서 mmWave/THz MIMO의 견고한 빔포밍을 제공하며 결정론적 RL 방법보다 우수하다는 것을 보여준다.

ABSTRACT

Millimeter-wave (mmWave) and terahertz (THz) massive MIMO systems often rely on predefined beamforming codebooks, which are usually suboptimal in Non-Line-of-Sight (NLoS) conditions and for hardware-limited transceivers. Reinforcement Learning (RL) enables adaptive, data-driven codebook design without explicit Channel State Information (CSI), but the robustness of such algorithms in practical conditions is underexplored. This paper introduces a robust multi-agent RL framework that learns beam codebooks directly from environmental feedback, eliminating the need for prior channel knowledge. Our method is well-suited for real-world deployments facing unpredictable propagation and hardware constraints. We conduct a comprehensive analysis of three off-policy algorithms, Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), and Soft Actor-Critic (SAC), evaluating their resilience to hardware impairments and feedback noise. Simulations show that SAC consistently outperforms deterministic methods, achieving superior beamforming gains and stability in NLoS scenarios, even under severe impairments. These results demonstrate the promise of RL-based codebook design for robust mmWave/THz massive MIMO systems.

연구 동기 및 목표

  • mmWave/THz MIMO에서 explicit CSI 없이 견고한 빔 코드북 설계를 동기를 부여한다.
  • 환경 피드백으로부터 빔 패턴을 학습하기 위한 다중 에이전트 RL 프레임워크를 제안한다.
  • 하드웨어 손상과 피드백 노이즈하에서 RL 알고리즘의 견고성을 평가한다.
  • 현실적 조건에서 RL 기반 코드북을 스트레스 테스트하기 위한 벤치마킹 방법론을 제시한다.

제안 방법

  • 아날로그 빔포머와 이산 위상 편향기를 가진 다중 에이전트 MDP로 빔 코드북 설계를 모델링한다.
  • 세 가지 오프폴리시 알고리즘(DDPG, TD3(결정론적 정책), SAC(확률적 정책))을 비교한다.
  • 연속 액션을 하드웨어 실행 가능한 위상으로 매핑하기 위해 KNN 양자화를 사용한다.
  • 노이즈 피드백을 다루고 탐색을 개선하기 위해 ternary 보상을 도입한다.
  • sensing 빔으로 사용자를 클러스터링하고 Hungarian 알고리즘을 이용해 초기 매칭을 최적화된 에이전트 배정으로 클러스터를 할당한다.
  • DeepMIMO 기반 데이터셋을 사용해 위상 불일치 손상과 AWGN 피드백 노이즈 하에서 견고성을 평가한다.
Figure 1: Proposed Multi-Agent RL Framework. The architecture decomposes codebook design into clustering and assignment phases. Individual agents optimize beam patterns using DDPG, TD3, or SAC, where continuous actions are quantized via KNN to meet hardware constraints.
Figure 1: Proposed Multi-Agent RL Framework. The architecture decomposes codebook design into clustering and assignment phases. Individual agents optimize beam patterns using DDPG, TD3, or SAC, where continuous actions are quantized via KNN to meet hardware constraints.

실험 결과

연구 질문

  • RQ1확률적 정책 학습(SAC)이 하드웨어 손상 하에서 결정론적 RL 방법(DDPG/TD3)보다 더 견고한 빔 코드북을 제공할 수 있는가?
  • RQ2LoS 및 NLoS mmWave/THz 시나리오에서 노이즈 피드백이 있는 RL 기반 빔 코드북 학습의 성능은 어떠한가?
  • RQ3하드웨어 불완전성의 존재 하에서 코드북 크기가 빔포밍 이득과 안정성에 미치는 영향은 무엇인가?
  • RQ4다중 에이전트 분해가 대규모 안테나 배열의 빔 패턴 학습에서 확장성 및 회복력을 개선하는가?

주요 결과

  • SAC는 LoS 및 NLoS 시나리오와 다양한 코드북 크기에서 DDPG/TD3보다 일관되게 더 높은 빔포밍 이득을 얻는다.
  • 하드웨어 결함 하에서 SAC가 가장 견고하게 남아 위상 불일치 분산이 증가해도 더 높은 이득을 유지한다.
  • 피드백 노이즈는 모든 방법의 성능을 떨어뜨리지만 SAC는 침체를 더 느리게 보이며 노이즈가 없는 성능의 더 큰 비율을 NLoS에서 최대 40%의 노이즈까지 유지한다.
  • SAC의 엔트로피 매개변수를 통한 적응적 탐색은 부분 최적 정책으로의 조기 수렴을 피해 견고한 성능을 가능하게 한다.
  • 다중 에이전트 클러스터링 및 할당 체계(Hungarian 알고리즘)는 초기 성능과 확장성을 향상시킨다.
Figure 2: Average beamforming gain versus phase mismatch standard deviation $\sigma_{p}$ in the NLoS scenario across various codebook sizes.
Figure 2: Average beamforming gain versus phase mismatch standard deviation $\sigma_{p}$ in the NLoS scenario across various codebook sizes.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.