QUICK REVIEW

[论文解读] Controlling Commercial Cooling Systems Using Reinforcement Learning

Jerry Luo, Cosmin Păduraru|arXiv (Cornell University)|Nov 11, 2022

Smart Grid Energy Management被引用 22

一句话总结

本文提出 BCOOLER，一种用于商业冷水机组的基于强化学习的控制器，该控制器从离线数据和实时数据中学习，在遵守安全与运行约束的同时降低能耗，在两个现场部署中实现了9%和13%的能量节约。

ABSTRACT

This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.

研究动机与目标

展示将强化学习用于商业冷水机组实时监控控制。
解决在现场设施中从有限数据学习、约束满足和非平稳动态等挑战。
展示与两座真实建筑中的启发式 SOO 控制器相比的能效提升。
描述使 RL 在行业约束下安全运行的实际适应策略。

提出的方法

将冷水机组控制建模为一个带约束的马尔可夫决策过程，包含50个状态特征和12个动作设定点。
开发 BCOOLER，一种基于集成的、带约束的 RL 学习者，预测能耗和观测约束违规情况。
对能耗和约束预测使用蒙特卡洛风格的目标，结合多头神经网络。
使用网络集合来估计不确定性，并通过约束筛选驱动探索。
以5分钟时间步进行决策，配合动作裁剪和模式感知的动作屏蔽以实现实时推断。
每日对离线和在线数据重新训练模型以适应变化条件。

实验结果

研究问题

RQ1基于 RL 的控制器是否能在满足安全与运行约束的前提下提高商业冷水机组的能效？
RQ2在真实建筑中部署 RL 会出现哪些挑战，该如何缓解（数据稀缺、约束、非平稳性）？
RQ3BCOOLER 在真实世界部署中与传统的SOO启发式方法相比如何？
RQ4有哪些做法使 RL 在不同建筑和运营模式下的扩展部署成为可能？

主要发现

与SOO基线相比，BCOOLER在一个现场实现了9%的能量节省，在另一个现场实现了13%。
RL系统在遵循与基线相似的观测到的约束的情况下，维持了居住者舒适度。
性能随时间改善，可能是由于更多数据和软件改进。
基于 RF 的集合方法提供了用于平衡探索与约束满足的不确定性估计。
该方法通过动作裁剪和模式特定屏蔽来处理多台冷水机组和大规模动作空间。
结果表明，在与设施预调试和AI就绪工作结合时，潜在收益可能更大。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。