[论文解读] Learning-Based Computation Offloading for IoT Devices with Energy Harvesting
本文提出了一种基于强化学习的计算卸载框架,用于动态多-MEC环境下的能量采集物联网设备。通过使用热启动Q-learning和快速深度Q网络(DQN)技术,系统能够根据电池电量、预测能量和历史信道条件,自主选择最优的MEC设备和卸载速率——相比基准Q-learning,实现高达2倍的效用提升和53%更低的任务丢弃率,且收敛速度更快。
Internet of Things (IoT) devices can apply mobile-edge computing (MEC) and energy harvesting (EH) to provide the satisfactory quality of experiences for computation intensive applications and prolong the battery lifetime. In this article, we investigate the computation offloading for IoT devices with energy harvesting in wireless networks with multiple MEC devices such as base stations and access points, each with different computation resource and radio communication capability. We propose a reinforcement learning based computation offloading framework for an IoT device to choose the MEC device and determine the offloading rate according to the current battery level, the previous radio bandwidth to each MEC device and the predicted amount of the harvested energy. A "hotbooting" Q-learning based computation offloading scheme is proposed for an IoT device to achieve the optimal offloading performance without being aware of the MEC model, the energy consumption and computation latency model. We also propose a fast deep Q-network (DQN) based offloading scheme, which combines the deep learning and hotbooting techniques to accelerate the learning speed of Q-learning. We show that the proposed schemes can achieve the optimal offloading policy after sufficiently long learning time and provide their performance bounds under two typical MEC scenarios. Simulations are performed for IoT devices that use wireless power transfer to capture the ambient radio-frequency signals to charge the IoT batteries. Simulation results show that the fast DQN-based offloading scheme reduces the energy consumption, decreases the computation delay and the task drop ratio, and increases the utility of the IoT device in dynamic MEC, compared with the benchmark Q-learning based offloading.
研究动机与目标
- 解决在具有多个MEC设备和时变能量供应的物联网网络中动态计算卸载的挑战。
- 使物联网设备能够在不了解MEC模型、能耗或延迟特性的情况下,优化卸载决策。
- 降低能量采集物联网系统中的能耗、计算延迟和任务丢弃率。
- 通过迁移学习和深度神经网络,加速卸载策略选择的学习收敛。
- 建立理论性能边界,并通过基于射频(RF)的无线能量传输的仿真验证该框架。
提出的方法
- 将卸载决策建模为马尔可夫决策过程(MDP),其中状态包括当前电池电量、历史无线带宽和预测的采集能量。
- 提出一种热启动Q-learning方案,利用迁移学习通过先前知识或预训练策略初始化Q值,以加速收敛。
- 引入一种基于快速DQN的卸载方案,使用卷积神经网络(CNN)压缩状态空间,加快学习速度。
- 将奖励函数定义为结合计算延迟、能耗和任务成功率的效用指标,以指导策略优化。
- 采用重复博弈框架,使物联网设备随时间与MEC网络交互,学习最优状态-动作映射。
- 使用通过射频(RF)信号的无线能量传输(WPT)来建模能量采集,发射功率作为关键系统参数。
实验结果
研究问题
- RQ1在多MEC、时变环境中,具备能量采集能力的物联网设备如何动态选择最优MEC设备和卸载速率?
- RQ2当物联网设备缺乏对MEC系统模型的了解时,学习速度和模型复杂度对卸载性能有何影响?
- RQ3在收敛速度、能效和任务可靠性方面,热启动Q-learning与快速DQN两种强化学习技术有何差异?
- RQ4在完全卸载和本地处理条件下,所提出的基于强化学习的卸载方案的理论性能边界是什么?
- RQ5系统参数(如任务大小和RF发射功率)如何影响能耗、延迟和任务丢弃率?
主要发现
- 基于快速DQN的卸载方案在约1,000个时隙内完成收敛,显著快于热启动Q-learning和标准Q-learning。
- 在第1,000个时隙,基于快速DQN的方案相比热启动Q-learning方案实现2倍更高的效用。
- 对于120比特的任务,基于快速DQN的方案相比热启动Q-learning方案,能耗降低23%,计算延迟降低4%。
- 在动态条件下,基于快速DQN的方案任务丢弃率比热启动Q-learning低53%,比基准Q-learning低68%。
- 当RF发射功率从6 W增加到10 W时,热启动Q-learning方案的任务丢弃率降低82%。
- 当计算任务大小从100比特增加到140比特时,基于快速DQN的方案中,能耗、延迟和任务丢弃率分别上升40%、46%和400%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。