[論文レビュー] Reinforcement Learning-based Energy Trading for Microgrids
本稿では、再生可能エネルギーの発電量、需要、バッテリーレベル、取引履歴の局所的予測を用いて、マイクログリッド(MG)が自律的かつ最適化されたエネルギーの買入・売却意思決定を下せるようにする、深層Qネットワーク(DQN)に基づく強化学習フレームワークを提案する。DQN手法により、主電力系統への依存度が24–25%低減され、ベンチマークとなるQ学習戦略と比較してMGの利便性が最大29.7%向上する。性能の向上は、実際の風力および電力価格データを用いて検証された。
With the time-varying renewable energy generation and power demand, microgrids (MGs) exchange energy in smart grids to reduce their dependence on power plants. In this paper, we formulate an MG energy trading game, in which each MG trades energy according to the predicted renewable energy generation and local energy demand, the current battery level, and the energy trading history. The Nash quilibrium (NE) of the game is provided, revealing the conditions under which the local energy generation satisfies the energy demand of the MG and providing the performance bound of the energy trading scheme. We propose a reinforcement learning based MG energy trading scheme that applies the deep Q-network (DQN) to improve the utility of the MG for the case with a large number of the connected MGs. Simulations are performed for the MGs with wind generation that are aware of the electricity prices and the historic energy trading, showing that this scheme significantly reduces the average power plant schedules and improves the utility of the MG compared with the benchmark strategy.
研究の動機と目的
- 不確実な再生可能エネルギーの発電量と需要を伴う、分散型かつ動的なマイクログリッドにおけるエネルギー取引の課題に対処すること。
- 知的かつ適応的なエネルギー取引戦略を通じて、マイクログリッドの外部発電所への依存度を低減すること。
- 他のMGのエネルギー発電量や需要モデルの完全な知識が不要な、スケーラブルな強化学習ソリューションを開発すること。
- 履歴取引データとリアルタイムの状態情報を利用することで、マイクログリッドの利便性とエネルギー自給率を向上させること。
提案手法
- 各MGをエージェントとして、予測された再生可能エネルギー出力、局所的需要、バッテリー状態、取引履歴に基づいてエネルギー取引を最適化するマルコフ決定過程(MDP)としてMGエネルギー取引を定式化する。
- 戦略的取引行動を分析し、局所的エネルギー発電が局所的需要を満たす条件を確立するために、ナッシュ均衡(NE)フレームワークを導入する。
- 高次元の状態行動空間におけるQ値推定に、畳み込みニューラルネットワーク(CNN)を用いた深層Qネットワーク(DQN)を採用し、大規模なMGネットワークにおけるサンプル効率の良い学習を可能にする。
- トレーニングの安定性を向上させるために、ミニバッチ勾配降下法を用いた二重DQN損失関数を適用し、ターゲットと現在のQ値推定の間のベルマン誤差を最小化する。
- DQNアルゴリズムにおけるトレーニングの安定性と収束性を向上させるために、経験再生とターゲットネットワーク技術を適用する。
- 香港の風速(風力)およびISOニューエングランドの電力価格からの実際の履歴データを用いてDQNエージェントをトレーニングし、バッテリー容量と価格比を主なシステムパラメータとして用いる。
実験結果
リサーチクエスチョン
- RQ1どのような条件下でマイクログリッドが、局所的再生可能エネルギー発電とピアツーピア取引のみで、自らの局所的エネルギー需要を完全に満たすことができるか?
- RQ2提案されたエネルギー取引ゲームにおけるナッシュ均衡は、電力価格、再生可能エネルギー発電量、需要、およびバッテリー状態の間の相互作用をどのように反映しているか?
- RQ3DQNベースのエージェントは、他のMGの発電量や需要プロファイルを事前に把握しない状況下で、主電力系統への依存度をどの程度低減できるか?
- RQ4DQNベースの戦略は、ベンチマークとなるQ学習手法と比較して、発電所のスケジューリングおよびMGの利便性という観点で、どの程度優れた性能を示すか?
- RQ5バッテリー容量と電力価格比の変化は、DQNベースのエネルギー取引戦略の有効性にどのような影響を与えるか?
主な発見
- DQNベースのエネルギー取引方式は、ピーク時間帯(午後8時~午前12時)に、ベンチマークとなるQ学習戦略と比較して、平均して発電所のスケジューリングを24%低減した。
- バッテリー容量を400kWhから600kWhに増加させた場合、DQN方式はベンチマークと比較して発電所のスケジューリングを25%低減し、エネルギー貯蔵の効率的利用が向上したことを示した。
- DQN手法は、低需要時間帯(午前0時~午前4時)に、ベンチマーク戦略と比較して平均してMGの利便性を29.7%向上させた。
- 価格比を0.1から0.5に引き上げた場合、DQNベースの方式は発電所への依存度を24%低減し、価格信号に強く反応することが示された。
- バッテリー容量を400kWhから600kWhに増加させた場合、DQN戦略はMGの利便性を22.8%向上させ、この状況下でベンチマークを21.9%上回った。
- 全体として、DQNベースの手法は、ベンチマークとなるQ学習法と比較して、発電所のスケジューリングを平均12.7%低減し、MGの利便性を22.3%向上させた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。