QUICK REVIEW

[논문 리뷰] Arbitrage of Energy Storage in Electricity Markets with Deep Reinforcement Learning

Hanchen Xu, Xiao Li|arXiv (Cornell University)|2019. 04. 28.

Smart Grid Energy Management참고 문헌 7인용 수 26

한 줄 요약

이 논문은 실시간 전력 시장에서 에너지 저장 시스템(Ess)의 확률적 제어 정책을 학습하기 위해 순환 신경망(RNN)과 지수이동평균(EMA) 필터를 사용한 근접 정책 최적화(PPO)를 활용한 딥 강화학습(DRL) 접근법을 제안한다. 이 방법은 시간적 가격 패턴을 추출하여 수익성 있는 아르바이트를 가능하게 하며, PJM 실시간 가격 데이터 기반으로 Q-러닝 대비 누적 수익이 40% 높아졌다.

ABSTRACT

In this letter, we address the problem of controlling energy storage systems (ESSs) for arbitrage in real-time electricity markets under price uncertainty. We first formulate this problem as a Markov decision process, and then develop a deep reinforcement learning based algorithm to learn a stochastic control policy that maps a set of available information processed by a recurrent neural network to ESSs' charging/discharging actions. Finally, we verify the effectiveness of our algorithm using real-time electricity prices from PJM.

연구 동기 및 목표

실시간 전력 시장에서 가격 불확실성 하에 에너지 저장 시스템(ESS)의 아르바이트 수익을 극대화하는 데이터 기반 제어 정책을 개발하는 것.
시간적 가격 패턴을 제어 정책에 통합하여 동적 가격 예측 및 상태 표현의 과제를 해결하는 것.
관측 가능한 시장 및 시스템 상태에서 최적의 충전/방전 조치로 매핑하는 확률적 제어 정책을 설계하는 것.
장기적인 시간적 의존성을 활용하여 기존 Q-러닝 및 최적화 기반 접근법을 향상시키는 것.
다수의 연도에 걸친 실제 PJM 실시간 전력 가격 데이터를 사용하여 방법의 타당성을 검증하는 것.

제안 방법

상태 공간이 ESS 에너지 수준, 평균 에너지 비용, 현재 가격 및 RNN의 은닉 상태로 정의된 마르코프 결정 과정(MDP)으로 문제를 수식화한다.
지수이동평균(EMA) 필터와 일중 레이어의 RNN을 사용하여 시간적 가격 추세를 추출하고 상태 표현에 통합한다.
θ로 매개변수화된 카테고리 정책 네트워크가 상태에서 세 가지 행동(완전 방전, 완전 충전, 무작위 조치)에 대한 확률로 매핑한다.
근접 정책 최적화(PPO) 알고리즘을 사용하여 정책을 훈련하며, 일반화된 이점 추정(GAE)을 통한 이점 추정을 통한 누적 할인 보상 최적화를 수행한다.
가치 함수와 정책은 별도의 학습률을 사용하는 Adam 최적화를 통해 업데이트되며, 경험은 10개의 트레이젝터리(168시간, 주간) 에피소드 동안 수집된다.
보상 함수는 아르바이트 수익(가격 차이 × 효율성)과 마모 비용을 고려하며, 누적 수익이 주요 성능 지표로 사용된다.

실험 결과

연구 질문

RQ1딥 강화학습 에이전트는 가격과 에너지 수준 관측만을 사용하여 실시간 전력 시장에서 ESS 아르바이트를 위한 효과적인 확률적 제어 정책을 학습할 수 있는가?
RQ2RNN과 EMA 필터를 통한 시간적 가격 패턴 통합은 이산 상태로 분할된 Q-러닝 대비 ESS 아르바이트 성능을 얼마나 향상시키는가?
RQ3실제 전력 가격 데이터 기반으로 제안된 DRL 방법은 전통적인 최적화 및 RL 기반 방법 대비 누적 수익 측면에서 얼마나 뛰어나게 성과를 내는가?
RQ4PPO를 사용한 연속적, 함수 근사 정책은 이 아르바이트 환경에서 이산 행동 Q-러닝 대비 더 나은 성능을 내는가?
RQ52016–2018년 데이터를 포함한 다양한 시장 조건에서 본 방법의 탄력성은 어떠한가? (다수의 연도 데이터 기반 성능으로 증명됨)

주요 결과

PPO-RNN 알고리즘은 2018년 마지막 3개월 동안 PJM 실시간 가격에서 누적 수익 $13,892를 기록하여 Q-러닝 대비 40% 높은 성과를 보였다($9,377).
2016년 데이터 기준 PPO-RNN은 누적 수익 $8,750을 기록했으며, Q-러닝의 $6,119 대비 40% 높았다.
2017년 데이터 기준 PPO-RNN은 누적 수익 $8,704를 기록했으며, Q-러닝의 $6,371 대비 40% 향상되었다.
모든 테스트 기간 동안 PPO-RNN은 Q-러닝 및 RNN 없이 PPO 기반 베이스라인(PPO) 모두를 뛰어넘는 일관된 성능을 보였으며, 시간적 특징 추출의 가치를 입증했다.
훈련 과정은 안정적인 수렴을 보였으며, 200개의 훈련 업데이트 동안 평균 주간 수익이 점진적으로 증가하여 효과적인 정책 학습을 나타냈다.
RNN 기반 은닉 상태 표현의 포함이 성능 향상에 크게 기여했으며, 가격 추세 모델링이 아르바이트 결정을 향상시킴을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.