QUICK REVIEW

[论文解读] Arbitrage of Energy Storage in Electricity Markets with Deep Reinforcement Learning

Hanchen Xu, Xiao Li|arXiv (Cornell University)|Apr 28, 2019

Smart Grid Energy Management参考文献 7被引用 26

一句话总结

本文提出一种基于深度强化学习（DRL）的方法，采用近端策略优化（PPO）结合循环神经网络（RNN）与指数移动平均（EMA）滤波，以学习实时电力市场中储能系统（ESS）的随机控制策略。该方法通过提取时间价格模式实现盈利套利，在PJM实时电价数据上实现的累计利润比Q-learning高出40%。

ABSTRACT

In this letter, we address the problem of controlling energy storage systems (ESSs) for arbitrage in real-time electricity markets under price uncertainty. We first formulate this problem as a Markov decision process, and then develop a deep reinforcement learning based algorithm to learn a stochastic control policy that maps a set of available information processed by a recurrent neural network to ESSs' charging/discharging actions. Finally, we verify the effectiveness of our algorithm using real-time electricity prices from PJM.

研究动机与目标

开发一种数据驱动的储能系统（ESS）控制策略，以在价格不确定的实时电力市场中最大化套利利润。
通过将时间价格模式整合到ESS控制策略中，解决动态价格预测与状态表示的挑战。
设计一种随机控制策略，将可观测的市场与系统状态映射为最优充放电动作。
通过利用具有长期时间依赖性的深度强化学习，超越现有的Q-learning与基于优化的方法。
使用多年真实PJM实时电价数据对方法进行验证。

提出的方法

将问题表述为马尔可夫决策过程（MDP），其中状态空间由ESS储能水平、平均电能成本、当前电价以及来自RNN的隐藏状态定义。
使用指数移动平均（EMA）滤波器与单层RNN提取时间价格趋势，并将其嵌入状态表示中。
采用参数化为θ的分类策略网络，将状态映射为三种动作的概率分布：完全放电、完全充电或无操作。
使用近端策略优化（PPO）算法训练策略，通过广义优势估计（GAE）进行优势估计，以优化期望累计折扣奖励。
使用Adam优化器分别更新价值函数与策略，采用独立的学习率，经验通过10条轨迹的168小时（每周）周期收集。
奖励函数考虑套利收益（价格差乘以效率）与磨损成本，累计利润作为关键性能指标。

实验结果

研究问题

RQ1深度强化学习智能体是否能仅基于价格与储能水平观测，学习到在实时电力市场中ESS套利的有效随机控制策略？
RQ2通过RNN与EMA滤波引入时间价格模式，相较于使用离散化状态的最先进Q-learning方法，能否显著提升ESS套利性能？
RQ3在真实世界电力价格数据上，所提出的DRL方法在累计利润方面相较于传统优化方法与强化学习基线方法的优越程度如何？
RQ4在该套利场景中，使用连续函数近似的策略与PPO相比，是否优于离散动作的Q-learning方法？
RQ5该方法在不同市场条件下的鲁棒性如何，其在2016–2018年多组数据上的表现是否具有代表性？

主要发现

在2018年第四季度PJM实时电价数据上，PPO-RNN算法实现了13,892美元的累计利润，比Q-learning高出40%（9,377美元）。
在2016年数据上，PPO-RNN实现8,750美元的累计利润，比Q-learning的6,119美元高出40%。
在2017年数据上，PPO-RNN实现8,704美元的累计利润，比Q-learning的6,371美元高出40%。
PPO-RNN方法在所有测试周期内均持续优于Q-learning与无RNN的PPO基线（PPO），证明了时间特征提取的价值。
训练过程表现出稳定的收敛性，平均每周利润在200次训练更新中稳步提升，表明策略学习有效。
引入基于RNN的隐藏状态表示显著提升了性能，证明建模价格趋势可改善套利决策。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。