QUICK REVIEW

[论文解读] Hierarchical Decision Making In Electricity Grid Management

Gal Dalal, Elad Gilboa|arXiv (Cornell University)|Mar 6, 2016

Smart Grid Energy Management参考文献 30被引用 23

一句话总结

本文提出了一种新颖的分层强化学习框架，采用交错的马尔可夫决策过程（MDP）来管理电力系统中日前（DA）和实时（RT）的可靠性。通过在高层策略改进与低层价值函数近似之间交替进行，IAPI算法学习到一种鲁棒的日前策略，在IEEE RTS-96系统仿真中表现优于启发式方法，展现出在不确定性下的改进可靠性。

ABSTRACT

The power grid is a complex and vital system that necessitates careful reliability management. Managing the grid is a difficult problem with multiple time scales of decision making and stochastic behavior due to renewable energy generations, variable demand and unplanned outages. Solving this problem in the face of uncertainty requires a new methodology with tractable algorithms. In this work, we introduce a new model for hierarchical decision making in complex systems. We apply reinforcement learning (RL) methods to learn a proxy, i.e., a level of abstraction, for real-time power grid reliability. We devise an algorithm that alternates between slow time-scale policy improvement, and fast time-scale value function approximation. We compare our results to prevailing heuristics, and show the strength of our method.

研究动机与目标

解决在多时间尺度下电力系统可靠性分层决策的不可行复杂性。
开发一种可行的代理模型，用于近似实时可靠性影响，以支持长期决策。
实现在大规模、受限电力系统中可扩展的、数据驱动的策略学习，该系统具有随机可再生能源出力。
通过仿真环境弥合强化学习与实际电力系统运行之间的差距。
提供一种可适应其他分层、多尺度可靠性关键系统的框架。

提出的方法

构建两层MDP结构：高层日前MDP与低层实时MDP，具有独立的状态、动作和奖励空间。
设计一种交错近似策略改进（IAPI）算法，通过在改进日前策略与优化实时价值函数之间交替进行。
利用函数逼近（如神经网络或线性模型）进行价值函数逼近，以高效估计实时可靠性结果。
采用基于滚动的评估方法，每策略运行2000个episode，以估计期望奖励并指导策略改进。
将策略参数投影到主成分上，以可视化收敛过程与策略空间探索。
在IEEE RTS-96测试系统上验证该框架，使用交流潮流方程计算系统状态与可靠性指标。

实验结果

研究问题

RQ1分层强化学习框架能否有效管理随机电力系统中日前与实时可靠性决策？
RQ2与基于启发式的决策方法相比，交错策略改进结合价值函数逼近在可靠性与奖励方面表现如何？
RQ3IAPI算法在高维、受限的状态-动作空间中，能在多大程度上探索并收敛到高性能策略？
RQ4所学习的日前策略能否在不同日负荷需求模式下泛化，并将其映射到合适的机组组合？
RQ5基于代理的价值逼近对大规模电力系统中的可扩展性与计算可行性有何影响？

主要发现

IAPI算法成功学习到一种日前策略，其获得的期望奖励高于三种常见启发式方法：随机（Random）、成本（Cost）和弹性（Elastic）。
通过IAPI学习到的策略在不同日负荷需求模式与对应最优机组动作之间表现出明显的聚类，表明具有良好的泛化能力。
通过主成分投影进行的收敛性分析显示，该算法在策略空间中进行了有效探索，并收敛至局部极小值，表明学习动态稳定。
IAPI策略下表现最优的百分位数解的方差随迭代次数减少，表明策略一致性得到提升。
仿真环境与框架在IEEE RTS-96网络上得到验证，其状态空间为O(10^300)，动作空间为O(10^100)，证实了对真实系统复杂度的可扩展性。
该方法在可靠性与奖励方面优于启发式基线，证明了在复杂、不确定环境中学习优于基于规则的选择。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。