Skip to main content
QUICK REVIEW

[論文レビュー] Controlling Commercial Cooling Systems Using Reinforcement Learning

Jerry Luo, Cosmin Păduraru|arXiv (Cornell University)|Nov 11, 2022
Smart Grid Energy Management被引用数 22
ひとこと要約

論文はオフラインデータと実データの両方から学習し、安全性と運用制約を尊重しつつエネルギー消費を削減する商用チラー設備向け RL ベースの制御器 BC OOLER を提案し、2つの実デプロイでエネルギー節約 9% および 13% を達成した。

ABSTRACT

This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.

研究の動機と目的

  • 商用チラー設備のリアルタイム監督制御のための強化学習を実証する。
  • 限られたデータからの学習、制約満足、現場での非定常ダイナミクスという課題に対処する。
  • 2つの実建物におけるヒューリスティック SOO 制御と比較してエネルギー効率の改善を示す。
  • 業界の制約の範囲内で RL を安全に運用する実践的適応を説明する。

提案手法

  • チラー設備の制御を50の状態特徴量と12のアクション設定値を用いた制約付き MDP として定式化する。
  • エネルギー使用量と観測制約違反を予測する、アンサンブル型の制約付き RL 学習器である BCOOLER を開発する。
  • エネルギーと制約予測を多頭ニューラルネットワークでモンテカルロ風のターゲットとして用いる。
  • 不確実性を推定するネットワークのアンサンブルを用い、制約フィルタリングを介して探索を促進する。
  • 5分のタイムステップ決定を行い、アクションプリューニングとモード依存のマスキングを適用してリアルタイム推論を実現する。
  • 変化する条件に適応するために、オフラインデータとオンラインデータの両方で日次再訓練を行う。

実験結果

リサーチクエスチョン

  • RQ1RL ベースの制御器は安全性と運用制約を尊重しつつ、商用チラー設備のエネルギー効率を改善できるか。
  • RQ2実建物で RL を展開する際に生じる課題は何か(データ不足、制約、非定常性)そしてそれらをどう緩和できるか。
  • RQ3BCOOLER は現実のデプロイで従来の SOO ベースの手法とどう比較されるか。
  • RQ4異なる建物・運用モードにまたがる RL の拡張展開を可能にする実践は何か。

主な発見

  • BCOOLER は1つの実サイトで 9%、別の1つで 13% のエネルギー節約を SOO ベースの基準と比較して達成した。
  • RL 系は観測された制約を基準と同様に順守することで居住者の快適性を維持した。
  • データ量とソフトウェアの改良により時間とともに性能が向上した可能性が高い。
  • RF ベースのアンサンブルアプローチにより探索と制約満足のバランスを取るための不確実性推定が提供された。
  • 方法は複数のチラーと大規模なアクション空間を、アクションプリーニングとモード別マスキングで対処できる。
  • 現場の事前調整と AI readiness の取り組みと組み合わせるとさらなる利益が得られる可能性が示唆される。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。