[論文レビュー] Arbitrage of Energy Storage in Electricity Markets with Deep Reinforcement Learning
本稿では、再帰的ニューラルネットワーク(RNN)と指数移動平均(EMA)フィルタリングを用いた、近接方策最適化(PPO)に基づく深層強化学習(DRL)手法を提案する。この手法は、リアルタイム電力市場におけるエネルギー貯蔵システム(ESS)の確率的制御方策を学習する。価格の時間的パターンを抽出することで、利益を上げるアービタージュを可能にし、PJMのリアルタイム価格データ上でQ学習よりも40%高い累積的利益を達成した。
In this letter, we address the problem of controlling energy storage systems (ESSs) for arbitrage in real-time electricity markets under price uncertainty. We first formulate this problem as a Markov decision process, and then develop a deep reinforcement learning based algorithm to learn a stochastic control policy that maps a set of available information processed by a recurrent neural network to ESSs' charging/discharging actions. Finally, we verify the effectiveness of our algorithm using real-time electricity prices from PJM.
研究の動機と目的
- 価格の不確実性下でも、リアルタイム電力市場におけるアービタージュ利益を最大化するデータ駆動型のESS制御方策を開発すること。
- 時間的価格パターンを制御方策に組み込むことで、動的価格予測と状態表現の課題に対処すること。
- 観測可能な市場およびシステム状態から最適な充電/放電行動へのマッピングを実現する確率的制御方策を設計すること。
- 長期的な時間的依存関係を活用することで、従来のQ学習および最適化ベースの手法を凌駕する深層強化学習を採用すること。
- 複数年のPJMリアルタイム電力価格データを用いて、実世界のデータを用いて手法を検証すること。
提案手法
- 状態空間をESSのエネルギー残量、平均エネルギー費用、現在の価格、およびRNNからの隠れ状態で定義したマルコフ決定過程(MDP)として問題を定式化する。
- 時間的価格トレンドを抽出し、状態表現に埋め込むために、指数移動平均(EMA)フィルタと1層のRNNを用いる。
- パラメータθでパrameter化されたカテゴリカル方策ネットワークが、3つの行動(完全放電、完全充電、行動なし)の確率に状態をマッピングする。
- 方策の訓練には近接方策最適化(PPO)アルゴリズムを用い、一般化された優位性推定(GAE)を用いた優位性推定により、期待される累積割引報酬を最適化する。
- 価値関数と方策は、別々の学習率を用いたAdam最適化により更新され、168時間(週単位)のエピソードを10トラジェクトリ分収集する。
- 報酬関数はアービタージュ利益(価格差×効率)と摩耗コストを考慮し、累積利益を主なパフォーマンス指標として用いる。
実験結果
リサーチクエスチョン
- RQ1深層強化学習エージェントは、価格とエネルギー残量の観測のみを用いて、リアルタイム電力市場におけるESSアービタージュの効果的な確率的制御方策を学習できるか?
- RQ2RNNとEMAフィルタリングによる時間的価格パターンの組み込みは、離散状態を用いた最先端のQ学習と比較して、ESSアービタージュパフォーマンスをどのように向上させるか?
- RQ3本稿で提案するDRL手法は、実世界の電力価格データ上での累積利益という観点から、従来の最適化およびRLベースラインをどの程度上回るか?
- RQ4PPOを用いた連続的・関数近似型方策は、このアービタージュ設定において、離散行動Q学習よりも優れた結果をもたらすか?
- RQ52016年から2018年の複数年のデータを用いた性能から、本手法の市場条件変動に対するロバストネスはどの程度か?
主な発見
- PPO-RNNアルゴリズムは、2018年第4四半期のPJMリアルタイム価格データ上で累積利益13,892ドルを達成し、Q学習の9,377ドルを40%上回った。
- 2016年のデータでは、PPO-RNNは累積利益8,750ドルを達成し、Q学習の6,119ドルを40%上回った。
- 2017年のデータでは、PPO-RNNは累積利益8,704ドルを達成し、Q学習の6,371ドルを40%上回った。
- PPO-RNNは、全テスト期間を通じてQ学習およびRNNなしのPPOベースライン(PPO)を常に上回り、時間的特徴抽出の価値を実証した。
- 訓練プロセスは安定した収束を示し、200回の訓練更新を経て平均週間利益が着実に増加した。これは、有効な方策学習が行われたことを示している。
- RNNベースの隠れ状態表現の導入が、パフォーマンスを顕著に向上させた。これは、価格トレンドをモデル化することがアービタージュ意思決定を改善することを裏付けた。
より良い研究を、今すぐ始めましょう
論文設計から論文執筆まで、研究時間を劇的に削減しましょう。
クレジットカード登録不要
このレビューはAIが作成し、人間の編集者が確認しました。