Skip to main content
QUICK REVIEW

[論文レビュー] A Deep Q-Learning Method for Downlink Power Allocation in Multi-Cell Networks

Kazi Ishfaq Ahmed, Ekram Hossain|arXiv (Cornell University)|Apr 30, 2019
Advanced MIMO Systems Optimization参考文献 19被引用数 29
ひとこと要約

本稿は、ピーク電力制約下で全ネットワークスループットを最大化することを目的として、マルチセルネットワークにおけるダウンリンク電力割り当てのための集中型ディープQラーニング(DQL)フレームワークを提案する。問題をマークフ・意思決定過程(MDP)として定式化し、経験再生とディープQネットワークを用いることで、ラベル付き学習データを必要とせずに近似最適性能を達成し、従来のWMMSEやランダム割り当てと比較して優れた性能を示す。大規模なシナリオでは、正規化スループットがGAベースの近似最適解の99.2%に達する。

ABSTRACT

Optimal resource allocation is a fundamental challenge for dense and heterogeneous wireless networks with massive wireless connections. Because of the non-convex nature of the optimization problem, it is computationally demanding to obtain the optimal resource allocation. Recently, deep reinforcement learning (DRL) has emerged as a promising technique in solving non-convex optimization problems. Unlike deep learning (DL), DRL does not require any optimal/ near-optimal training dataset which is either unavailable or computationally expensive in generating synthetic data. In this paper, we propose a novel centralized DRL based downlink power allocation scheme for a multi-cell system intending to maximize the total network throughput. Specifically, we apply a deep Q-learning (DQL) approach to achieve near-optimal power allocation policy. For benchmarking the proposed approach, we use a Genetic Algorithm (GA) to obtain near-optimal power allocation solution. Simulation results show that the proposed DRL-based power allocation scheme performs better compared to the conventional power allocation schemes in a multi-cell scenario.

研究の動機と目的

  • 密なマルチセルネットワークにおけるダウンリンク電力割り当て問題の非凸的かつNP困難な性質に対処すること。
  • 大規模システムにおいて計算的に非現実的となる従来のヒューリスティック手法(例:全探索や遺伝的アルゴリズム(GA))の限界を克服すること。
  • 教師ありディープラーニングが要求する最適または近似最適なトレーニングデータセットを回避する、データ効率の高い強化学習ソリューションの開発。
  • 全ネットワークスループットを最大化することを目的とした、スケーラブルで集中型のDQLベースの電力割り当てポリシーの設計。
  • さまざまなネットワークサイズおよびハイパーパrameter設定において、DRLアプローチのロバストネスとスケーラビリティの評価。

提案手法

  • 状態、行動、報酬空間を明確に定義したマークフ・意思決定過程(MDP)として電力割り当て問題を定式化する。
  • 高次元の状態・行動空間に対応するため、1層の隠れ層を備えたディープQネットワーク(DQN)を用いて行動価値関数(Q関数)を近似する。
  • DQLアルゴリズムの訓練安定化とサンプル効率の向上を図るため、経験再生とターゲットネットワークを採用する。
  • DQNの訓練にRMSprop最適化アルゴリズムと平均二乗誤差(MSE)損失関数を適用する。
  • 小規模ネットワークでは学習率を0.0025、大規模ネットワークでは0.025に設定し、実験的性能に基づく最適化を実施。
  • 各サブバンドあたりの最大電力(12.8 W)を固定し、報酬を全ネットワークスループットとして定義する。

実験結果

リサーチクエスチョン

  • RQ1DRLベースのアプローチは、ラベル付きトレーニングデータを必要とせずにマルチセルネットワークにおける近似最適電力割り当てを達成できるか?
  • RQ2提案手法のDQL法の性能は、ネットワークサイズ(セル数)の増加に伴ってどのように変化するか?
  • RQ3学習率や隠れ層サイズといった主要なハイパーパrameterが、DRLモデルの性能に与える影響は何か?
  • RQ4スループットの観点から、WMMSE、最大電力割り当て、ランダム割り当てといった従来手法と比較して、DQLベースの電力割り当てはどのように差をつけるか?
  • RQ5再トレーニングなしで、DRLモデルはさまざまなネットワークシナリオに効果的に一般化できるか?

主な発見

  • 提案されたDQLベースの電力割り当て方式は、シナリオ1(小規模ネットワーク)において、GAベースの近似最適解の平均正規化スループット99.276%を達成し、優れた性能を示した。
  • ネットワークサイズの増大に伴いスループットがわずかに低下し、シナリオ3(大規模ネットワーク)では99.109%に低下した。これは、状態空間および行動空間の複雑化に起因する。
  • 最適な学習率はネットワークサイズに依存する:小規模ネットワークでは0.0025、大規模ネットワークでは0.025であり、ハイパーパrameterチューニングへの感受性を示している。
  • DQNの隠れ層数を増加させると、過学習や不要な特徴の学習が生じ、性能が低下する傾向を示した。
  • 全テストネットワークシナリオにおいて、DQLモデルはWMMSE、最大電力割り当て、ランダム電力割り当てを常に上回った。
  • 本手法は計算的にスケーラブルであり、教師あり学習が要求する高コストなトレーニングデータ生成を回避するため、大規模シナリオにおいても効果的である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。