QUICK REVIEW

[論文レビュー] Transfer Reinforcement Learning for 5G-NR mm-Wave Networks

Medhat Elsayed, Melike Erol‐Kantarci|arXiv (Cornell University)|Jan 1, 2020

Millimeter-Wave Propagation and Modeling参考文献 42被引用数 2

ひとこと要約

本稿では、5G-NR mm-Wave ネットワークにおける同時ユーザー-セル接続およびビームフォーミング最適化を目的として、和スループットを最大化し、イントラビーム干渉およびセル間干渉を低減するための転移強化学習（TQL）フレームワークを提案する。事前に訓練されたエキスパートエージェントから学習エージェントへ知識を転送することにより、TQLは高速移動状態ではベースライン手法よりも12%高い和スループットを達成し、静的状況では標準Q学習よりも29%高速に収束する。

ABSTRACT

In this paper, we aim at interference mitigation in 5G millimeter-Wave (mm-Wave) communications by employing beamforming and Non-Orthogonal Multiple Access (NOMA) techniques with the aim of improving network's aggregate rate. Despite the potential capacity gains of mm-Wave and NOMA, many technical challenges might hinder that performance gain. In particular, the performance of Successive Interference Cancellation (SIC) diminishes rapidly as the number of users increases per beam, which leads to higher intra-beam interference. Furthermore, intersection regions between adjacent cells give rise to inter-beam inter-cell interference. To mitigate both interference levels, optimal selection of the number of beams in addition to best allocation of users to those beams is essential. In this paper, we address the problem of joint user-cell association and selection of number of beams for the purpose of maximizing the aggregate network capacity. We propose three machine learning-based algorithms; transfer Q-learning (TQL), Q-learning, and Best SINR association with Density-based Spatial Clustering of Applications with Noise (BSDC) algorithms and compare their performance under different scenarios. Under mobility, TQL and Q-learning demonstrate 12% rate improvement over BSDC at the highest offered traffic load. For stationary scenarios, Q-learning and BSDC outperform TQL, however TQL achieves about 29% convergence speedup compared to Q-learning.

研究の動機と目的

高いユーザー密度とビームの重複による5G-NR mm-Wave ネットワークにおける干渉の課題に対処する。
ネットワーク全体スループットを最大化するために、同時ユーザー-セル接続およびビーム数最適化を最適化する。
マルチセルmm-Wave環境における従来の最適化手法および集中型手法の限界を克服する。
動的ネットワーク環境における転移強化学習を活用して学習効率と収束速度を向上させる。
静的および移動ユーザー配置の両方で性能を評価し、提案アルゴリズムの頑健性と適応性を検証する。

提案手法

各gNBがマルチセルmm-Waveネットワーク内の独立した学習エージェントとして機能するマルチエージェントフレームワークを提案する。
エキスパートエージェント（単純なユーザー-セル接続）から学習エージェント（複雑な同時接続およびビーム選択）へ知識を転送するため、TQLアルゴリズムをTvITM（タスク間マッピングを介した転送）を用いて設計する。
和スループットと干渉低減に基づく報酬関数を用いて、Q学習ベースのエージェントを、同時ユーザー-セル接続およびビーム数選択に実装する。
接続に最適SINRを、ユーザーの空間的近接性に基づくクラスタリングにDBSCANを組み合わせたハイブリッドベースライン（BSDC）を導入する。
状態空間をユーザー分布およびチャネル状態として定義し、行動空間を各ビームごとのビーム数およびユーザー割り当てとして定義する。
スペクトル効率を最大化するとともに干渉を最小化する報酬関数を用い、高い障害率やパケット損失に対してペナルティを課す。

実験結果

リサーチクエスチョン

RQ1転移強化学習は、mm-Wave ネットワークにおける同時ユーザー-セル接続およびビーム選択の収束速度と性能を向上させることができるか？
RQ2さまざまなユーザー移動性および負荷状態下で、TQLは標準Q学習およびBSDCベースラインと比較してどのように性能を発揮するか？
RQ3ユーザー移動性は、機械学習ベースのビーム管理アルゴリズムの安定性とスループット性能にどのような影響を与えるか？
RQ4事前に訓練されたエキスパートエージェントからの知識転送は、複雑で動的なmm-Wave環境における学習効率を顕著に向上させるか？
RQ5提案されたTQLフレームワークは、異なる展開シナリオにおいて収束速度、和スループット、頑健性のバランスをどのようにとるか？

主な発見

高い移動性（ランダムウェイポイントモデル）下では、TQLとQ学習はピーク負荷時、BSDCベースラインよりも12%高い和スループットを達成する。
静止状態では、Q学習とBSDCがTQLを10–23%上回る和スループットを達成しており、静的環境におけるTQLの速度と最終的性能のトレードオフが示されている。
静的状況下でTQLは標準Q学習に比べて約29%高速に収束する。これは、学習速度の効率性を示している。
TQL、Q学習、BSDCの3つのアルゴリズムすべてが、HARQ再送回数を1回に制限するシミュレーションのため、1ms未満の低遅延を達成しており、すべてがベースラインを上回る性能を示している。
BSDCアルゴリズムはTQLやQ学習よりも計算複雑度が低く、静的展開においては低オーバーヘッドの代替手段として実用的である。
提案されたTQLフレームワークは、効率的なオフライン学習とオンライン展開への知識転送を可能にし、実世界の現場展開において独自の利点を提供する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。