QUICK REVIEW

[論文レビュー] On-line Building Energy Optimization using Deep Reinforcement Learning

Elena Mocanu, Decebal Constantin Mocanu|arXiv (Cornell University)|Jul 18, 2017

Smart Grid Energy Management参考文献 17被引用数 44

ひとこと要約

本稿では、Deep Q-Network (DQN) および Deep Policy Gradient (DPG) アルゴリズムを用いた、住宅用建物エネルギーマネジメントのための深層強化学習（DRL）ベースのオンライン最適化フレームワークを提案する。実世界のPecan Streetデータを用いて、48棟の建物で最大14.1％のコスト削減および213.01 kWのピーク負荷削減を達成する、同時複数行動制御を可能にするDQNの新規拡張手法を導入する。

ABSTRACT

Unprecedented high volumes of data are becoming available with the growth of the advanced metering infrastructure. These are expected to benefit planning and operation of the future power system, and to help the customers transition from a passive to an active role. In this paper, we explore for the first time in the smart grid context the benefits of using Deep Reinforcement Learning, a hybrid type of methods that combines Reinforcement Learning with Deep Learning, to perform on-line optimization of schedules for building energy management systems. The learning procedure was explored using two methods, Deep Q-learning and Deep Policy Gradient, both of them being extended to perform multiple actions simultaneously. The proposed approach was validated on the large-scale Pecan Street Inc. database. This highly-dimensional database includes information about photovoltaic power generation, electric vehicles as well as buildings appliances. Moreover, these on-line energy scheduling strategies could be used to provide real-time feedback to consumers to encourage more efficient use of electricity.

研究の動機と目的

高次元のデータを伴う大規模かつ動的な環境における、建物エネルギーコストのオンライン・リアルタイム最適化の課題に対処すること。
高い計算コストやオフライン処理の制限を抱える従来の最適化手法の限界を、高速で適応的な意思決定を可能にする深層強化学習を活用することで克服すること。
ヒストリカルなスマートメーター記録から最適スケジューリング戦略を学習することで、消費者へのリアルタイムフィードバックを可能にし、需要応答とコスト効率の向上を促進すること。
複数のデバイスを一度に制御する実用的な展開を可能にするために、DQNを同時に複数のアクションを処理できるように拡張すること。
個別建物および集約建物レベルにおけるエネルギーコストの最小化とネットロードプロファイルの平坦化の観点から、DQNとDPGの性能を評価・比較すること。

提案手法

建物エネルギーマネジメントシステムは、状態がエネルギー消費および発電プロファイルを表し、アクションが家電機器および蓄電デバイスの制御意思決定を表すマルコフ決定過程（MDP）としてモデル化される。
2つのDRLアルゴリズムが用いられる：価値ベース学習のためのDeep Q-Network（DQN）と、ポリシーベース学習のためのDeep Policy Gradient（DPG）であり、両者とも経験再生とターゲットネットワークを用いて安定性を向上させる。
DQNの新たな拡張が提案され、アクションヘッドを変更してアクションのベクトルを出力することで、複数デバイスの共同制御を可能にする。
報酬関数は、リアルタイム料金シグナルに基づいてエネルギーコストを最小化するように設計されており、負荷の平坦化とピーク削減を促進するための形状付けも施されている。
トレーニングは、15分間隔での太陽光発電、電気自動車、建物家電の高分解能データを含むPecan Street Inc.データセットを用いて実施される。
アルゴリズムは個別建物および集約建物レベルで評価され、コスト削減、ピーク負荷削減、収束速度の観点から測定される。

実験結果

リサーチクエスチョン

RQ1深層強化学習は、最小限の遅延で建物エネルギーコストのオンライン・リアルタイム最適化を効果的に可能にするか？
RQ2住宅エネルギーシステムにおけるコスト最小化およびピーク負荷削減の観点で、DQNとDPGの性能はどのように比較されるか？
RQ3DQNアルゴリズムは、建物エネルギーサイクル制御の文脈で、同時に複数のアクションを処理できるように成功裏に拡張可能か？
RQ4大規模かつ実世界の建物エネルギーオプティマイゼーションタスクにおいて、DPGの収束行動および長期的性能はいかなるものか？
RQ5DRLベースの戦略は、実世界のデータセットを用いて、需要応答を通じてエネルギーコストをどの程度削減し、電力網の安定性を向上させられるか？

主な発見

提案されたDPG手法は、48棟の建物で平均して14.1％の日次エネルギーコスト削減を達成し、DQNを3.4ポイント上回った。
DPGは集約レベルで平均してピーク負荷を213.01 kWにまで低下させ、最適化なしの状態（281.88 kW）と比較して24.5％のピーク削減を達成した。
複数アクション拡張を施したDQN手法は、48棟レベルでピーク負荷を12.98 kW削減し、共同制御の実現可能性を示した。
DPGアルゴリズムの収束は約1000エピソード後に観察され、報酬関数が安定化し、長期間期待値が約2500エピソードまで上昇した。
DRLエージェントは、動的料金に基づいてエネルギー消費をピーク時以外の時間帯にシフトさせることを学習し、快適性を損なわずコストを顕著に削減した。
DRL意思決定の計算インファレンス時間はミリ秒オーダーであり、リアルタイム展開が可能であった。これに対して、PSOのようなヒューリスティック手法は繰り返し最適化を要する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。