[论文解读] Safe multi-agent deep reinforcement learning for joint bidding and maintenance scheduling of generation units
本文提出了一种安全的深度确定性策略梯度(DDPG)强化学习算法,联合优化电力市场中发电单元的投标策略与预防性维护调度。通过将预测安全过滤器与深度强化学习相结合,该方法确保了关键可靠性约束(如负荷需求满足)始终得到满足,在保持系统安全的同时,实现的利润高于Q-learning。
This paper proposes a safe reinforcement learning algorithm for generation bidding decisions and unit maintenance scheduling in a competitive electricity market environment. In this problem, each unit aims to find a bidding strategy that maximizes its revenue while concurrently retaining its reliability by scheduling preventive maintenance. The maintenance scheduling provides some safety constraints which should be satisfied at all times. Satisfying the critical safety and reliability constraints while the generation units have an incomplete information of each others' bidding strategy is a challenging problem. Bi-level optimization and reinforcement learning are state of the art approaches for solving this type of problems. However, neither bi-level optimization nor reinforcement learning can handle the challenges of incomplete information and critical safety constraints. To tackle these challenges, we propose the safe deep deterministic policy gradient reinforcement learning algorithm which is based on a combination of reinforcement learning and a predicted safety filter. The case study demonstrates that the proposed approach can achieve a higher profit compared to other state of the art methods while concurrently satisfying the system safety constraints.
研究动机与目标
- 解决在信息不完全和关键安全约束下优化发电单元投标与维护调度的挑战。
- 通过强制执行预防性维护来确保系统可靠性,同时最小化维护成本。
- 始终确保负荷需求得到满足,即使在机组维护期间亦不例外。
- 开发一种可扩展的安全强化学习框架,能够处理连续动作空间和系统级约束。
- 克服标准强化学习与双层优化在处理不确定性和硬性约束方面的局限性。
提出的方法
- 应用深度确定性策略梯度(DDPG)强化学习,以在连续动作空间中学习最优投标策略。
- 引入一种预测安全过滤器,通过调整原始DDPG动作以满足系统级安全与可靠性约束。
- 将系统建模为多智能体双层决策问题,其中机组采取策略性行为,ISO负责市场出清。
- 将维护调度建模为带时间窗和容量限制的约束优化问题(例如,同时最多两台机组停运)。
- 使用神经网络作为函数逼近器,以处理连续状态与动作,从而在可扩展性上优于表格型Q-learning。
- 实时集成安全过滤:若DDPG输出违反约束(如过多机组停运),过滤器将调整决策以确保可行性。
实验结果
研究问题
- RQ1深度强化学习算法能否在竞争性电力市场中,联合优化投标与维护调度,同时满足硬性安全约束?
- RQ2与标准强化学习相比,预测安全过滤器的集成在信息不完全的多智能体系统中如何提升约束满足程度?
- RQ3所提出的安全部DDPG方法在利润和系统可靠性方面相较于传统Q-learning的优越程度如何?
- RQ4该算法如何随时间学习平衡维护频率、成本与系统可靠性?
- RQ5在训练过程中,缺乏安全过滤器对系统稳定性与负荷满足度有何影响?
主要发现
- 所提出的安全部DDPG算法在每集平均利润上高于Q-learning,且由于能够处理连续动作空间,收敛速度更快。
- 安全过滤器有效防止了系统可靠性约束的违反,例如多台机组同时维护导致的负荷削减。
- 维护调度得到成功协调:同时停运的机组不超过两台,且每台机组每100天内至少完成一次维护。
- 单位平均维护成本随时间下降,表明算法学会了更高效地安排维护。
- 若无安全过滤器,由于维护动作缺乏协调或时机不当,系统可能违反负荷需求约束。
- 在连续动作环境(表格方法易受离散化误差影响)中,安全部DDPG在利润和约束满足方面均优于Q-learning。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。