[论文解读] On-line Building Energy Optimization using Deep Reinforcement Learning
本文提出了一种基于深度强化学习(DRL)的在线优化框架,用于住宅建筑能源管理,采用深度Q网络(DQN)和深度策略梯度(DPG)算法。提出了一种新颖的方法,将DQN扩展为支持同时多动作控制,在使用真实Pecan Street数据的48栋建筑中,实现了最高14.1%的成本降低和213.01 kW的峰值负荷降低。
Unprecedented high volumes of data are becoming available with the growth of the advanced metering infrastructure. These are expected to benefit planning and operation of the future power system, and to help the customers transition from a passive to an active role. In this paper, we explore for the first time in the smart grid context the benefits of using Deep Reinforcement Learning, a hybrid type of methods that combines Reinforcement Learning with Deep Learning, to perform on-line optimization of schedules for building energy management systems. The learning procedure was explored using two methods, Deep Q-learning and Deep Policy Gradient, both of them being extended to perform multiple actions simultaneously. The proposed approach was validated on the large-scale Pecan Street Inc. database. This highly-dimensional database includes information about photovoltaic power generation, electric vehicles as well as buildings appliances. Moreover, these on-line energy scheduling strategies could be used to provide real-time feedback to consumers to encourage more efficient use of electricity.
研究动机与目标
- 解决在高维数据的大型动态环境中,对建筑能耗进行在线实时优化的挑战。
- 通过利用深度强化学习实现快速自适应决策,克服传统优化方法存在的高计算成本和离线处理等局限。
- 通过从历史智能电表数据中学习最优调度策略,实现实时反馈,提升用户需求响应能力和成本效率。
- 将DQN扩展以支持多个同时动作,实现建筑能源系统中多设备联合控制的实际部署。
- 在单体建筑和聚合建筑层级上,评估并比较DQN与DPG在最小化能源成本和扁平化净负荷曲线方面的性能。
提出的方法
- 将建筑能源管理系统建模为马尔可夫决策过程(MDP),其中状态表示能耗与发电配置,动作表示对电器和储能设备的控制决策。
- 采用两种DRL算法:基于值函数的深度Q网络(DQN)和基于策略的深度策略梯度(DPG),两者均通过经验回放和目标网络训练,以提升稳定性。
- 提出一种DQN的新扩展方法,通过修改深度Q网络的动作头输出动作向量,实现对多个设备的联合控制,从而支持同时多动作控制。
- 设计奖励函数以基于实时电价信号最小化能源成本,并通过额外的奖励塑造鼓励负荷平坦化与峰值降低。
- 使用Pecan Street Inc.数据集进行训练,该数据集包含光伏发电、电动汽车和建筑电器在15分钟间隔内的高分辨率数据。
- 在单体建筑和聚合建筑层级上评估算法性能,指标包括成本降低、峰值负荷降低和收敛速度。
实验结果
研究问题
- RQ1深度强化学习能否在极低延迟下有效实现建筑能耗的在线实时优化?
- RQ2在住宅能源系统中,DQN与DPG在成本最小化和峰值负荷降低方面的性能表现如何比较?
- RQ3DQN算法能否在建筑能源控制场景中成功扩展以支持多个同时动作?
- RQ4DPG在大规模真实建筑能源优化任务中的收敛行为和长期性能表现如何?
- RQ5基于DRL的策略在真实数据集中,能在多大程度上通过需求响应降低能源成本并提升电网稳定性?
主要发现
- 所提出的DPG方法在48栋建筑中平均实现每日能源成本降低14.1%,较DQN高出3.4个百分点。
- 在聚合层级,DPG将峰值负荷平均降低至213.01 kW,相比未优化情况的281.88 kW,实现24.5%的峰值降低。
- 采用多动作扩展的DQN方法在48栋建筑层级实现峰值负荷降低12.98 kW,证明了联合控制的可行性。
- DPG算法在约1000个训练周期后实现收敛,奖励函数趋于稳定,长期期望值持续上升至约2500个周期。
- DRL智能体学习到根据动态电价将能耗向非高峰时段转移,显著降低能耗成本,同时不损害舒适度。
- DRL决策的计算推理时间在毫秒级别,支持实时部署;相比之下,如PSO等启发式方法需重复优化,效率较低。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。