Skip to main content
QUICK REVIEW

[논문 리뷰] Transfer Reinforcement Learning for 5G-NR mm-Wave Networks

Medhat Elsayed, Melike Erol‐Kantarci|arXiv (Cornell University)|2020. 01. 01.
Millimeter-Wave Propagation and Modeling참고 문헌 42인용 수 2
한 줄 요약

이 논문은 5G-NR mm-Wave 네트워크에서 합산 속도를 극대화하고 내부 비례 간섭 및 이웃셀 간섭을 완화하기 위해 공동 사용자-셀 연결 및 비례형 조정 최적화를 위한 전이 강화학습(TQL) 프레임워크를 제안한다. 사전에 훈련된 전문가 에이전트에서 학습자 에이전트로 지식을 전이함으로써, TQL은 고속 이동 조건에서 기준 방법보다 12% 높은 합산 속도를 달성했으며, 정적 환경에서는 표준 Q-학습보다 29% 빠른 수렴 속도를 보였다.

ABSTRACT

In this paper, we aim at interference mitigation in 5G millimeter-Wave (mm-Wave) communications by employing beamforming and Non-Orthogonal Multiple Access (NOMA) techniques with the aim of improving network's aggregate rate. Despite the potential capacity gains of mm-Wave and NOMA, many technical challenges might hinder that performance gain. In particular, the performance of Successive Interference Cancellation (SIC) diminishes rapidly as the number of users increases per beam, which leads to higher intra-beam interference. Furthermore, intersection regions between adjacent cells give rise to inter-beam inter-cell interference. To mitigate both interference levels, optimal selection of the number of beams in addition to best allocation of users to those beams is essential. In this paper, we address the problem of joint user-cell association and selection of number of beams for the purpose of maximizing the aggregate network capacity. We propose three machine learning-based algorithms; transfer Q-learning (TQL), Q-learning, and Best SINR association with Density-based Spatial Clustering of Applications with Noise (BSDC) algorithms and compare their performance under different scenarios. Under mobility, TQL and Q-learning demonstrate 12% rate improvement over BSDC at the highest offered traffic load. For stationary scenarios, Q-learning and BSDC outperform TQL, however TQL achieves about 29% convergence speedup compared to Q-learning.

연구 동기 및 목표

  • 높은 사용자 밀도와 비례 겹침으로 인한 5G-NR mm-Wave 네트워크의 간섭 문제를 해결한다.
  • 합산 속도를 극대화하기 위해 공동 사용자-셀 연결 및 비례 수를 최적화한다.
  • 다중 셀 mm-Wave 환경에서 전통적인 최적화 및 중심 집중식 접근 방식의 한계를 극복한다.
  • 동적 네트워크 환경에서 전이 강화학습을 통해 학습 효율성과 수렴 속도를 향상시킨다.
  • 정적 및 이동 중 사용자 배치를 기반으로 성능을 평가하여 제안된 알고리즘의 강건성과 적응 가능성 평가

제안 방법

  • 각 gNB가 다중 셀 mm-Wave 네트워크에서 독립적인 학습자 에이전트로 작동하는 다중 에이전트 프레임워크를 제안한다.
  • 전문가 에이전트(간단한 사용자-셀 연결)에서 학습자 에이전트(복잡한 공동 연결 및 비례 선택)로 지식을 전이하기 위해 전이 경로 상호작용 맵핑(TvITM)을 사용하는 전이 강화학습(TQL) 알고리즘을 설계한다.
  • 합산 속도 및 간섭 완화 기반 보상 함수를 사용하여 공동 사용자-셀 연결 및 비례 수 선택을 위한 Q-학습 기반 에이전트를 구현한다.
  • 최적의 SINR을 통한 연결과 공간적 근접도 기반 DBSCAN 클러스터링을 조합한 하이브리드 기준(BSDC)을 도입한다.
  • 상태 공간을 사용자 분포 및 채널 조건으로 정의하고, 행동 공간을 각 비례에 대한 비례 수 및 사용자 할당으로 정의한다.
  • 스펙트럼 효율성을 극대화하고 간섭을 최소화하는 보상 함수를 사용하며, 고장 및 패킷 손실이 높을 경우에 벌점을 적용한다.

실험 결과

연구 질문

  • RQ1전이 강화학습은 mm-Wave 네트워크에서 공동 사용자-셀 연결 및 비례 선택에 대해 수렴 속도와 성능을 향상시킬 수 있는가?
  • RQ2다양한 사용자 이동성 및 부하 조건 하에서 TQL의 성능은 표준 Q-학습 및 BSDC 기준 대비 어떻게 비교되는가?
  • RQ3사용자 이동성이 기계학습 기반 비례 관리 알고리즘의 안정성과 속도 성능에 어떤 영향을 미치는가?
  • RQ4사전에 훈련된 전문가 에이전트에서의 지식 전이가 복잡하고 동적인 mm-Wave 환경에서 학습 효율성을 크게 향상시키는가?
  • RQ5제안된 TQL 프레임워크는 다양한 배치 환경에서 수렴 속도, 합산 속도, 강건성 간의 균형을 어떻게 유지하는가?

주요 결과

  • 고속 이동 조건(랜덤 웨이포인트 모델)에서 TQL과 Q-학습은 피크 제공 부하 조건에서 BSDC 기준 대비 12% 높은 합산 속도를 달성했다.
  • 정적 환경에서는 Q-학습과 BSDC가 TQL보다 합산 속도에서 10~23% 우수했으며, 이는 정적 환경에서 TQL의 수렴 속도와 최종 성능 간의 트레이드오프를 시사한다.
  • 정적 환경에서 TQL은 표준 Q-학습 대비 약 29% 더 빠른 수렴 속도를 확보했으며, 이는 학습 속도 효율성을 입증한다.
  • TQL, Q-학습, BSDC 모두 시뮬레이션에서 HARQ 재전송을 한 번으로 제한함으로써 낮은 지연(1ms 이하)을 달성했으며, 모두 기준 대비 우수한 지연 성능을 보였다.
  • BSDC 알고리즘은 TQL과 Q-학습보다 낮은 계산 복잡도를 보였으며, 이는 정적 배포에서 저오버헤드 대안으로서의 타당성을 높였다.
  • 제안된 TQL 프레임워크는 작업의 효율적 오프라인 훈련과 온라인 배포로의 지식 전이를 가능하게 하여 실제 현장 배포에 있어 고유한 이점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.