Skip to main content
QUICK REVIEW

[论文解读] Optimized Computation Offloading Performance in Virtual Edge Computing Systems via Deep Reinforcement Learning

Xianfu Chen, Honggang Zhang|arXiv (Cornell University)|May 16, 2018
IoT and Edge/Fog Computing参考文献 25被引用 27
一句话总结

本文提出了一种基于深度强化学习的计算卸载框架,用于超密集化、切片化的无线接入网络中的虚拟化移动边缘计算(MEC)。通过将卸载建模为马尔可夫决策过程,并利用具有Q函数分解的双深度Q网络,该方法在无需事先了解网络动态的情况下学习最优卸载策略,在长期效用方面相比基线方法取得了显著提升。

ABSTRACT

To improve the quality of computation experience for mobile devices, mobile-edge computing (MEC) is a promising paradigm by providing computing capabilities in close proximity within a sliced radio access network (RAN), which supports both traditional communication and MEC services. Nevertheless, the design of computation offloading policies for a virtual MEC system remains challenging. Specifically, whether to execute a computation task at the mobile device or to offload it for MEC server execution should adapt to the time-varying network dynamics. In this paper, we consider MEC for a representative mobile user in an ultra-dense sliced RAN, where multiple base stations (BSs) are available to be selected for computation offloading. The problem of solving an optimal computation offloading policy is modelled as a Markov decision process, where our objective is to maximize the long-term utility performance whereby an offloading decision is made based on the task queue state, the energy queue state as well as the channel qualities between MU and BSs. To break the curse of high dimensionality in state space, we first propose a double deep Q-network (DQN) based strategic computation offloading algorithm to learn the optimal policy without knowing a priori knowledge of network dynamics. Then motivated by the additive structure of the utility function, a Q-function decomposition technique is combined with the double DQN, which leads to novel learning algorithm for the solving of stochastic computation offloading. Numerical experiments show that our proposed learning algorithms achieve a significant improvement in computation offloading performance compared with the baseline policies.

研究动机与目标

  • 解决在时间变化的无线接入网络(RANs)中,网络条件随时间动态变化的虚拟化、超密集化、切片化移动边缘计算(MEC)环境下的动态、随机计算卸载挑战。
  • 设计一种最优卸载策略,以在时变的信道质量与能量可用性条件下,平衡任务执行延迟、能耗、任务丢弃率与MEC服务成本。
  • 克服典型多用户、多基站MEC环境中高维状态空间带来的维度灾难问题。
  • 实现实时学习卸载策略,而无需事先掌握信道变化或任务到达过程的统计知识。

提出的方法

  • 将计算卸载问题建模为马尔可夫决策过程(MDP),其中状态由任务队列状态、能量队列状态以及移动用户与基站之间的信道质量定义。
  • 提出一种基于双深度Q网络(Double DQN)的算法(DARLING),以端到端方式学习最优卸载策略,且无需事先了解网络动态。
  • 引入Q函数分解以利用效用函数的可加结构,降低学习复杂度并提高样本效率。
  • 通过将双DQN与Q函数分解相结合,开发一种新型算法Deep-SARL,以简化随机卸载问题并增强策略学习。
  • 使用集中式网络控制器(CNC)基于实时系统状态做出卸载决策,实现跨多个基站的协调资源编排。
  • 使用经验回放与目标网络训练DRL智能体,以在非平稳环境中稳定学习并提升收敛性。

实验结果

研究问题

  • RQ1在具有时变信道质量、任务到达与能量可用性的动态、随机MEC环境中,如何学习最优计算卸载策略?
  • RQ2深度强化学习是否能有效处理多基站、多用户MEC系统中固有的高维状态空间,且无需事先掌握统计知识?
  • RQ3Q函数分解在随机计算卸载中在多大程度上提升了学习效率与性能?
  • RQ4所提出的基于DRL的算法与传统基线策略相比,在长期效用、延迟与失败率方面表现如何?
  • RQ5能量可用性与任务到达率对所学卸载策略性能有何影响?

主要发现

  • 所提出的Deep-SARL算法在长期效用方面优于DARLING算法与三种基线卸载方案,显著提升了整体系统性能。
  • 数值结果表明,DARLING与Deep-SARL均显著降低了平均任务执行延迟、任务丢弃率、队列延迟与失败惩罚,相比基线方案。
  • 随着能量单位到达率的提高,平均任务执行延迟与MEC服务费用先上升后下降,表明存在一个最优的能量利用阈值。
  • 当任务到达概率增加时,效用性能因更高的队列延迟与任务丢弃率而下降,但所提算法比基线方案更好地缓解了这些影响。
  • Deep-SARL算法通过Q函数分解有效利用效用函数的可加结构,性能优于DARLING。
  • 所提算法成功实现实时学习最优卸载策略,且无需事先掌握信道统计特性或任务到达分布。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。