QUICK REVIEW

[论文解读] Scheduling and Power Control for Wireless Multicast Systems via Deep Reinforcement Learning

Ramkumar Raghu|arXiv (Cornell University)|Nov 23, 2021

Advanced Wireless Network Optimization参考文献 50被引用 7

一句话总结

本文提出了一种基于深度强化学习（DRL）的框架，用于在无线广播系统中联合调度与功率控制，采用具有函数逼近的多时间尺度深度Q网络，在衰落信道下优化服务质量。该方法实现了队列与功率控制的可扩展、自适应及跨层优化，在动态环境中表现出更优的平均停留时间与约束满足度。

ABSTRACT

Multicasting in wireless systems is a natural way to exploit the redundancy in user requests in a content centric network. Power control and optimal scheduling can significantly improve the wireless multicast network&rsquo;s performance under fading. However, the model-based approaches for power control and scheduling studied earlier are not scalable to large state spaces or changing system dynamics. In this paper, we use deep reinforcement learning, where we use function approximation of the Q-function via a deep neural network to obtain a power control policy that matches the optimal policy for a small network. We show that power control policy can be learned for reasonably large systems via this approach. Further, we use multi-timescale stochastic optimization to maintain the average power constraint. We demonstrate that a slight modification of the learning algorithm allows tracking of time varying system statistics. Finally, we extend the multi-time scale approach to simultaneously learn the optimal queuing strategy along with power control. We demonstrate the scalability, tracking and cross-layer optimization capabilities of our algorithms via simulations. The proposed multi-time scale approach can be used in general large state-space dynamical systems with multiple objectives and constraints, and may be of independent interest.

研究动机与目标

解决基于模型的功率控制与调度在大规模状态空间无线广播系统中的可扩展性与适应性局限。
联合优化队列策略与功率控制，以在衰落信道下提升服务质量（QoS）。
实现在无信道统计特性或系统动态先验知识情况下的在线策略最优学习。
通过多时间尺度随机优化，维持平均功率约束并跟踪时变系统统计特性。
在真实的无线广播场景中，通过深度强化学习展示队列与功率控制的跨层优化。

提出的方法

提出一种具有函数逼近的深度Q网络（DQN），用于在高维状态与动作空间的大规模马尔可夫决策过程（MDP）中学习Q函数，以实现功率控制。
提出一种新型的深度辅助梯度近似（DAGA）算法，利用回放缓冲区与在线训练，提高梯度估计的置信度并降低方差。
采用多时间尺度随机优化以强制执行平均功率约束，对策略、价值函数与拉格朗日乘子分别设置不同的学习率。
通过根据约束满足容忍度要求固定学习率，对DQN算法进行修改，以跟踪时变系统统计特性。
将框架扩展为一种新型的演员-评论家DQN（AC-DQN），采用多时间尺度更新，同时学习最优队列与功率控制策略。
采用拉格朗日松弛方法将约束嵌入学习目标，实现稳定且可行的策略学习。

实验结果

研究问题

RQ1深度强化学习能否在具有未知动态特性的大规模状态空间无线广播系统中有效学习最优功率控制策略？
RQ2在动态无线环境中，如何在在线学习过程中维持平均功率约束？
RQ3所提方法能否有效跟踪系统统计特性（如用户请求速率与信道条件）的时变变化？
RQ4与解耦方法相比，队列与功率控制的联合优化在多大程度上能改善平均停留时间？
RQ5多时间尺度DRL框架能否推广至具有多个约束与目标的系统？

主要发现

所提DRL方法在小型网络中实现的平均停留时间与最优策略相当，展现出强大的学习能力。
该算法在不同到达速率下均成功维持了平均功率约束，平均功率在10^5个时间步内收敛。
该方法能有效跟踪时变系统统计特性，表现为在到达速率变化时，拉格朗日乘子与功率水平均保持稳定收敛。
IDA（改进的DQN算法）在不同到达速率与信道条件下，均能实现最优队列策略选择（重传、环回、延迟），优于基线方法。
多时间尺度方法实现了队列与功率控制策略的同步学习，以低方差与高置信度的梯度更新实现跨层优化。
该框架具备可扩展性与泛化能力，可拓展至多基站场景与缓存策略学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。