Skip to main content
QUICK REVIEW

[論文レビュー] Energy-Efficient Thermal Comfort Control in Smart Buildings via Deep Reinforcement Learning

Guanyu Gao, Jie Li|arXiv (Cornell University)|Jan 15, 2019
Building Energy and Comfort Optimization参考文献 38被引用数 70
ひとこと要約

本論文は、Deep Deterministic Policy Gradients (DDPG) を用いた連続HVAC制御の深層強化学習フレームワークと、熱的快適性を予測するベイズ正則化ニューラルネットワークを組み合わせ、TRNSYSベースの建物シミュレータで評価してエネルギー消費を削減しつつ居住者の快適性を維持することを示す。

ABSTRACT

Heating, Ventilation, and Air Conditioning (HVAC) is extremely energy-consuming, accounting for 40% of total building energy consumption. Therefore, it is crucial to design some energy-efficient building thermal control policies which can reduce the energy consumption of HVAC while maintaining the comfort of the occupants. However, implementing such a policy is challenging, because it involves various influencing factors in a building environment, which are usually hard to model and may be different from case to case. To address this challenge, we propose a deep reinforcement learning based framework for energy optimization and thermal comfort control in smart buildings. We formulate the building thermal control as a cost-minimization problem which jointly considers the energy consumption of HVAC and the thermal comfort of the occupants. To solve the problem, we first adopt a deep neural network based approach for predicting the occupants' thermal comfort, and then adopt Deep Deterministic Policy Gradients (DDPG) for learning the thermal control policy. To evaluate the performance, we implement a building thermal control simulation system and evaluate the performance under various settings. The experiment results show that our method can improve the thermal comfort prediction accuracy, and reduce the energy consumption of HVAC while improving the occupants' thermal comfort.

研究の動機と目的

  • スマートビルディングにおいて居住者の熱的快適性を維持しつつ、HVACエネルギー消費を削減する。
  • 複数の影響因子を組み込んだ居住者の熱的快適性を予測するモデルを開発する。
  • 連続アクションを用いた深層強化学習を活用して、HVACの設定温度の制御をより精密に行う。
  • さまざまな条件下で建物シミュレーション環境により手法を検証する。

提案手法

  • 室内状態変数から居住者の熱的快適性を予測するためのベイズ正則化フィードフォワードニューラルネットワークを開発する。
  • エネルギー最適化と熱的快適性を、エネルギー使用と快適性ペナルティを組み合わせたコスト(報酬)関数を持つマルコフ決定過程として定式化する。
  • 温度と湿度の連続設定点制御のために、アクタークリティックアーキテクチャを用いた Deep Deterministic Policy Gradients (DDPG) を適用する。
  • TRNSYSベースの建物シミュレーションでDDPGエージェントを訓練し、リプレイバッファとOrnstein-Uhlenbeck探索ノイズを使用する。
  • 受け入れ可能な熱的快適閾値の外でHVACエネルギー消費と不快感をペナルティとする報酬関数を使用する(M は [-D, D] 内)。

実験結果

リサーチクエスチョン

  • RQ1連続アクションのDDPG制御ポリシーは、ベースラインと比較してHVACエネルギーを削減しつつ居住者の快適性を維持できるか?
  • RQ2ベイズ正則化ニューラルネットワークを用いて、室内環境変数から熱的快適性をどれだけ正確に予測できるか?
  • RQ3エネルギーと快適性の重み付けパラメータが、学習政策と全体の性能に与える影響はどれほどか?
  • RQ4学習済みの熱的快適性予測器をフィードバックとして統合することが、モデルベースの手法より制御判断を改善するか?

主な発見

  • 提案手法は、DNNベースの熱的快適性予測器をDDPGと統合し、エネルギー最適化と快適性制御を共同で行う。
  • ニューラルネットワーク予測器は、快適性推定の一般化を改善するためにベイズ正則化を用いる。
  • TRNSYSベースのシミュレーションで評価され、アプローチが居住者の快適性を維持または向上させつつHVACエネルギー消費を削減できることを示している。
  • アクション空間は連続のままで、HVAC設定点を正確に制御し、他のDRL手法の離散化制限を回避する。
  • 報酬におけるエネルギーコストと快適性ペナルティのトレードオフパラメータを設定可能とし、居住者のニーズに合わせたカスタマイズを可能にする。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。