[论文解读] Reinforcement Learning-based Energy Trading for Microgrids
本文提出了一种基于深度Q网络(DQN)的强化学习框架,用于微电网(MGs)中的能源交易,使微电网能够利用本地对可再生能源发电、负荷、电池状态和交易历史的预测,自主优化能源购售决策。与基准Q-learning策略相比,DQN方法将对主电网的依赖降低了24%–25%,并将微电网效用提高了最多29.7%,其性能通过真实世界的风能和电价数据得到验证。
With the time-varying renewable energy generation and power demand, microgrids (MGs) exchange energy in smart grids to reduce their dependence on power plants. In this paper, we formulate an MG energy trading game, in which each MG trades energy according to the predicted renewable energy generation and local energy demand, the current battery level, and the energy trading history. The Nash quilibrium (NE) of the game is provided, revealing the conditions under which the local energy generation satisfies the energy demand of the MG and providing the performance bound of the energy trading scheme. We propose a reinforcement learning based MG energy trading scheme that applies the deep Q-network (DQN) to improve the utility of the MG for the case with a large number of the connected MGs. Simulations are performed for the MGs with wind generation that are aware of the electricity prices and the historic energy trading, showing that this scheme significantly reduces the average power plant schedules and improves the utility of the MG compared with the benchmark strategy.
研究动机与目标
- 解决在可再生能源发电和负荷具有不确定性的情况下,微电网中去中心化、动态能源交易的挑战。
- 通过智能、自适应的能源交易策略,减少微电网对外部发电厂的依赖。
- 开发一种可扩展的强化学习解决方案,无需掌握其他微电网能源发电或负荷模型的完整信息。
- 通过利用历史交易数据和实时状态信息,提升微电网效用和能源自给率。
提出的方法
- 将微电网能源交易建模为马尔可夫决策过程(MDP),其中每个微电网作为智能体,基于对可再生能源输出、本地负荷、电池状态和交易历史的预测来优化能源交易。
- 引入纳什均衡(NE)框架以分析策略性交易行为,并建立本地能源发电可满足本地负荷的条件。
- 采用深度Q网络(DQN)结合卷积神经网络(CNN)来估计高维状态-动作空间中的Q值,实现在大规模微电网网络中的样本高效学习。
- 使用双DQN损失函数结合小批量梯度下降法以稳定训练过程,最小化目标Q值与当前Q值估计之间的贝尔曼误差。
- 应用经验回放和目标网络技术以提升DQN算法的训练稳定性和收敛性。
- 使用来自香港(风速)和ISO新英格兰(电价)的真实历史数据训练DQN智能体,电池容量和电价比率为关键系统参数。
实验结果
研究问题
- RQ1在何种条件下,微电网可仅通过本地可再生能源发电和点对点交易完全满足其本地能源需求?
- RQ2所提出的能源交易博弈中的纳什均衡如何反映电价、可再生能源发电、负荷和电池水平之间的相互作用?
- RQ3DQN智能体在未预先掌握其他微电网发电或负荷特征的情况下,能在多大程度上减少对主电网的依赖?
- RQ4在发电厂调度和微电网效用方面,DQN策略相较于基准Q-learning方法在性能上表现如何?
- RQ5电池容量和电价比率对DQN基能源交易策略的有效性有何影响?
主要发现
- 与基准Q-learning策略相比,DQN基能源交易方案在高峰夜间时段(晚上8:00–午夜12:00)将平均发电厂调度量减少了24%。
- 当电池容量从400 kWh增加到600 kWh时,DQN方案相比基准策略将发电厂调度量减少了25%,表明能量存储利用效率得到提升。
- 与基准策略相比,DQN方法在低需求时段(凌晨00:00–04:00)将平均微电网效用提高了29.7%。
- 当电价比率从0.1增至0.5时,DQN方案将对发电厂的依赖度降低了24%,显示出对价格信号的强响应能力。
- 当电池容量从400 kWh增至600 kWh时,DQN策略使微电网效用提升22.8%,优于基准策略在该场景下的21.9%提升。
- 总体而言,与基准Q-learning方法相比,DQN基方法平均将发电厂调度量减少12.7%,并将微电网效用提高22.3%。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。