[论文解读] A Deep Q-Learning Method for Downlink Power Allocation in Multi-Cell Networks
本文提出了一种集中式深度Q学习(DQL)框架,用于多小区网络下行链路功率分配,以在峰值功率约束下最大化总网络吞吐量。通过将问题建模为马尔可夫决策过程,并使用经验回放与深度Q网络,该方法在无需标注训练数据的情况下实现了近似最优性能,优于传统方案如WMMSE和随机分配,在大规模场景下吞吐量达到基于遗传算法(GA)的近似最优解的99.2%。
Optimal resource allocation is a fundamental challenge for dense and heterogeneous wireless networks with massive wireless connections. Because of the non-convex nature of the optimization problem, it is computationally demanding to obtain the optimal resource allocation. Recently, deep reinforcement learning (DRL) has emerged as a promising technique in solving non-convex optimization problems. Unlike deep learning (DL), DRL does not require any optimal/ near-optimal training dataset which is either unavailable or computationally expensive in generating synthetic data. In this paper, we propose a novel centralized DRL based downlink power allocation scheme for a multi-cell system intending to maximize the total network throughput. Specifically, we apply a deep Q-learning (DQL) approach to achieve near-optimal power allocation policy. For benchmarking the proposed approach, we use a Genetic Algorithm (GA) to obtain near-optimal power allocation solution. Simulation results show that the proposed DRL-based power allocation scheme performs better compared to the conventional power allocation schemes in a multi-cell scenario.
研究动机与目标
- 解决密集多小区网络中具有大量连接的下行链路功率分配问题的非凸性和NP难性质。
- 克服传统启发式方法(如穷举搜索和遗传算法(GA))在大规模系统中计算不可行的问题。
- 开发一种数据高效的强化学习解决方案,避免监督深度学习对最优或近似最优训练数据集的需求。
- 设计一种可扩展的集中式DQL基功率分配策略,以最大化总网络吞吐量。
- 评估DRL方法在不同网络规模和超参数下的鲁棒性与可扩展性。
提出的方法
- 将功率分配问题建模为马尔可夫决策过程(MDP),明确定义状态空间、动作空间和奖励空间。
- 采用具有单隐藏层的深度Q网络(DQN)来近似动作价值函数(Q函数),以处理高维状态-动作空间。
- 使用经验回放和目标网络以稳定训练过程并提高DQL算法的样本效率。
- 采用RMSprop优化器与均方误差(MSE)损失函数训练DQN。
- 根据实验性能,将小网络的学习率设为0.0025,大网络的学习率设为0.025。
- 设定每个子带的最大功率为固定值(12.8 W),并将奖励定义为总网络吞吐量。
实验结果
研究问题
- RQ1基于DRL的方法是否能在无需标注训练数据的情况下,实现多小区网络中的近似最优功率分配?
- RQ2所提出的DQL方法在网络规模(小区数量)增加时,性能如何变化?
- RQ3关键超参数(如学习率和隐藏层大小)对DRL模型性能有何影响?
- RQ4与WMMSE、最大功率分配和随机分配等传统方案相比,基于DQL的功率分配在吞吐量方面表现如何?
- RQ5DRL模型是否能在不重新训练的情况下,有效泛化到不同网络场景?
主要发现
- 所提出的DQL基功率分配方案在场景-1(小规模网络)中实现了平均归一化吞吐量99.276%的GA基近似最优解,表现出强劲性能。
- 随着网络规模增大,吞吐量略有下降,在场景-3(更大规模网络)中降至99.109%,主要由于状态空间和动作空间复杂度增加。
- 最优学习率随网络规模变化:小网络为0.0025,大网络为0.025,凸显对超参数调优的敏感性。
- 增加DQN中的隐藏层数量会导致性能下降,原因在于过拟合和学习无关特征。
- 在所有测试的网络场景中,DQL模型始终优于WMMSE、最大功率分配和随机功率分配方案。
- 该方法在计算上具有可扩展性,在大规模场景中表现高效,因为它避免了监督学习所需的昂贵训练数据生成。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。