Skip to main content
QUICK REVIEW

[논문 리뷰] Arbitrage of Energy Storage in Electricity Markets with Deep Reinforcement Learning

Hanchen Xu, Xiao Li|arXiv (Cornell University)|2019. 04. 28.
Smart Grid Energy Management참고 문헌 7인용 수 26
한 줄 요약

이 논문은 실시간 전력 시장에서 에너지 저장 시스템(Ess)의 확률적 제어 정책을 학습하기 위해 순환 신경망(RNN)과 지수이동평균(EMA) 필터를 사용한 근접 정책 최적화(PPO)를 활용한 딥 강화학습(DRL) 접근법을 제안한다. 이 방법은 시간적 가격 패턴을 추출하여 수익성 있는 아르바이트를 가능하게 하며, PJM 실시간 가격 데이터 기반으로 Q-러닝 대비 누적 수익이 40% 높아졌다.

ABSTRACT

In this letter, we address the problem of controlling energy storage systems (ESSs) for arbitrage in real-time electricity markets under price uncertainty. We first formulate this problem as a Markov decision process, and then develop a deep reinforcement learning based algorithm to learn a stochastic control policy that maps a set of available information processed by a recurrent neural network to ESSs' charging/discharging actions. Finally, we verify the effectiveness of our algorithm using real-time electricity prices from PJM.

연구 동기 및 목표

  • 실시간 전력 시장에서 가격 불확실성 하에 에너지 저장 시스템(ESS)의 아르바이트 수익을 극대화하는 데이터 기반 제어 정책을 개발하는 것.
  • 시간적 가격 패턴을 제어 정책에 통합하여 동적 가격 예측 및 상태 표현의 과제를 해결하는 것.
  • 관측 가능한 시장 및 시스템 상태에서 최적의 충전/방전 조치로 매핑하는 확률적 제어 정책을 설계하는 것.
  • 장기적인 시간적 의존성을 활용하여 기존 Q-러닝 및 최적화 기반 접근법을 향상시키는 것.
  • 다수의 연도에 걸친 실제 PJM 실시간 전력 가격 데이터를 사용하여 방법의 타당성을 검증하는 것.

제안 방법

  • 상태 공간이 ESS 에너지 수준, 평균 에너지 비용, 현재 가격 및 RNN의 은닉 상태로 정의된 마르코프 결정 과정(MDP)으로 문제를 수식화한다.
  • 지수이동평균(EMA) 필터와 일중 레이어의 RNN을 사용하여 시간적 가격 추세를 추출하고 상태 표현에 통합한다.
  • θ로 매개변수화된 카테고리 정책 네트워크가 상태에서 세 가지 행동(완전 방전, 완전 충전, 무작위 조치)에 대한 확률로 매핑한다.
  • 근접 정책 최적화(PPO) 알고리즘을 사용하여 정책을 훈련하며, 일반화된 이점 추정(GAE)을 통한 이점 추정을 통한 누적 할인 보상 최적화를 수행한다.
  • 가치 함수와 정책은 별도의 학습률을 사용하는 Adam 최적화를 통해 업데이트되며, 경험은 10개의 트레이젝터리(168시간, 주간) 에피소드 동안 수집된다.
  • 보상 함수는 아르바이트 수익(가격 차이 × 효율성)과 마모 비용을 고려하며, 누적 수익이 주요 성능 지표로 사용된다.

실험 결과

연구 질문

  • RQ1딥 강화학습 에이전트는 가격과 에너지 수준 관측만을 사용하여 실시간 전력 시장에서 ESS 아르바이트를 위한 효과적인 확률적 제어 정책을 학습할 수 있는가?
  • RQ2RNN과 EMA 필터를 통한 시간적 가격 패턴 통합은 이산 상태로 분할된 Q-러닝 대비 ESS 아르바이트 성능을 얼마나 향상시키는가?
  • RQ3실제 전력 가격 데이터 기반으로 제안된 DRL 방법은 전통적인 최적화 및 RL 기반 방법 대비 누적 수익 측면에서 얼마나 뛰어나게 성과를 내는가?
  • RQ4PPO를 사용한 연속적, 함수 근사 정책은 이 아르바이트 환경에서 이산 행동 Q-러닝 대비 더 나은 성능을 내는가?
  • RQ52016–2018년 데이터를 포함한 다양한 시장 조건에서 본 방법의 탄력성은 어떠한가? (다수의 연도 데이터 기반 성능으로 증명됨)

주요 결과

  • PPO-RNN 알고리즘은 2018년 마지막 3개월 동안 PJM 실시간 가격에서 누적 수익 $13,892를 기록하여 Q-러닝 대비 40% 높은 성과를 보였다($9,377).
  • 2016년 데이터 기준 PPO-RNN은 누적 수익 $8,750을 기록했으며, Q-러닝의 $6,119 대비 40% 높았다.
  • 2017년 데이터 기준 PPO-RNN은 누적 수익 $8,704를 기록했으며, Q-러닝의 $6,371 대비 40% 향상되었다.
  • 모든 테스트 기간 동안 PPO-RNN은 Q-러닝 및 RNN 없이 PPO 기반 베이스라인(PPO) 모두를 뛰어넘는 일관된 성능을 보였으며, 시간적 특징 추출의 가치를 입증했다.
  • 훈련 과정은 안정적인 수렴을 보였으며, 200개의 훈련 업데이트 동안 평균 주간 수익이 점진적으로 증가하여 효과적인 정책 학습을 나타냈다.
  • RNN 기반 은닉 상태 표현의 포함이 성능 향상에 크게 기여했으며, 가격 추세 모델링이 아르바이트 결정을 향상시킴을 입증했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.