QUICK REVIEW

[논문 리뷰] Reinforcement Learning-based Energy Trading for Microgrids

Liang Xiao, Xingyu Xiao|arXiv (Cornell University)|2018. 01. 19.

Microgrid Control and Optimization참고 문헌 23인용 수 32

한 줄 요약

이 논문은 지역 예측 자료인 재생 가능 에너지 발전, 수요, 배터리 수준 및 무역 이력 등을 활용하여 마이크로그리드(MG)가 자율적으로 에너지 구매/판매 결정을 최적화할 수 있도록 하는 딥 Q네트워크(DQN)-기반 강화학습 프레임워크를 제안한다. DQN 접근법은 메인 전력망 의존도를 24–25% 감소시키고, 벤치마크 Q학습 전략 대비 최대 29.7%까지 MG 유틸리티를 증가시키며, 실제 풍력 및 전기 요금 데이터를 활용한 성능 향상이 검증되었다.

ABSTRACT

With the time-varying renewable energy generation and power demand, microgrids (MGs) exchange energy in smart grids to reduce their dependence on power plants. In this paper, we formulate an MG energy trading game, in which each MG trades energy according to the predicted renewable energy generation and local energy demand, the current battery level, and the energy trading history. The Nash quilibrium (NE) of the game is provided, revealing the conditions under which the local energy generation satisfies the energy demand of the MG and providing the performance bound of the energy trading scheme. We propose a reinforcement learning based MG energy trading scheme that applies the deep Q-network (DQN) to improve the utility of the MG for the case with a large number of the connected MGs. Simulations are performed for the MGs with wind generation that are aware of the electricity prices and the historic energy trading, showing that this scheme significantly reduces the average power plant schedules and improves the utility of the MG compared with the benchmark strategy.

연구 동기 및 목표

불확실한 재생 가능 에너지 발전과 수요를 고려한 분산형 동적 에너지 무역의 과제를 해결하기 위해.
지능적이고 적응형 에너지 무역 전략을 통해 마이크로그리드의 외부 전력 발전소 의존도를 줄이기 위해.
다른 마이크로그리드의 에너지 발전 또는 수요 모델에 대한 완전한 지식이 필요로 하지 않는 확장 가능한 강화학습 솔루션을 개발하기 위해.
이력 무역 데이터와 실시간 상태 정보를 활용하여 마이크로그리드 유틸리티와 에너지 자립도를 향상시키기 위해.

제안 방법

모든 마이크로그리드가 예측된 재생 가능 에너지 출력, 현지 수요, 배터리 상태 및 무역 이력에 기반해 에너지 무역을 최적화하는 에이전트로 행동하는 마르코프 결정 과정(MDP)으로 마이크로그리드 에너지 무역을 수립한다.
지역 에너지 발전이 지역 수요를 충족시킬 수 있는 조건을 설정하기 위해 전략적 무역 행동을 분석하고, 나시 균형(NE) 프레임워크를 도입한다.
고차원 상태-행동 공간에서 Q값을 추정하기 위해 컨volution 신경망(CNN)을 활용한 딥 Q네트워크(DQN)를 적용하여 대규모 마이크로그리드 네트워크에서 샘플 효율적인 학습을 가능하게 한다.
학습 안정성을 향상시키기 위해 미니배치 경사하강법을 사용하는 더블 DQN 손실 함수를 적용하여 타겟 Q값과 현재 Q값 추정 간 벨먼 오차를 최소화한다.
DQN 알고리즘의 학습 안정성과 수렴성을 향상시키기 위해 경험 재생 및 타겟 네트워크 기법을 적용한다.
홍콩(바람 속도)의 실시간 역사 데이터와 ISO 뉴잉글랜드(전기 요금)의 데이터를 사용하여 DQN 에이전트를 훈련시키며, 배터리 용량과 요금 비율을 주요 시스템 파라미터로 설정한다.

실험 결과

연구 질문

RQ1어떤 조건에서 마이크로그리드가 지역 재생 가능 에너지 발전과 피어 투 피어 무역만으로 지역 에너지 수요를 완전히 충족시킬 수 있는가?
RQ2제안된 에너지 무역 게임에서의 나시 균형은 전기 요금, 재생 가능 에너지 발전, 수요 및 배터리 수준 간의 상호작용을 어떻게 반영하는가?
RQ3DQN 기반 에이전트는 다른 마이크로그리드의 발전 또는 수요 프로파일에 대한 사전 지식 없이 메인 전력망 의존도를 어느 정도 줄일 수 있는가?
RQ4벤치마크 Q학습 접근법 대비 DQN 기반 전략의 전력 발전소 스케줄링 및 MG 유틸리티 측면에서의 성능은 어떻게 비교되는가?
RQ5배터리 용량과 전기 요금 비율은 DQN 기반 에너지 무역 정책의 효과성에 어떤 영향을 미치는가?

주요 결과

DQN 기반 에너지 무역 방식은 피크 야간 시간대(오후 8시–오전 12시) 동안 벤치마크 Q학습 전략 대비 평균 전력 발전소 스케줄링을 24% 감소시킨다.
배터리 용량을 400kWh에서 600kWh로 증가시킬 경우, DQN 방식은 벤치마크 대비 전력 발전소 스케줄링을 25% 감소시켜 에너지 저장 활용도 향상을 입증한다.
저수요 시간대(오전 00시–04시) 동안 DQN 접근법은 벤치마크 전략 대비 평균 MG 유틸리티를 29.7% 향상시킨다.
요금 비율이 0.1에서 0.5로 증가함에 따라, DQN 기반 방식은 전력 발전소 의존도를 24% 감소시켜 가격 신호에 매우 민감하게 반응함을 보였다.
배터리 용량을 400kWh에서 600kWh로 증가시킬 경우, DQN 전략은 MG 유틸리티를 22.8% 향상시키며, 이 시나리오에서 벤치마크 대비 21.9% 높은 성능을 기록한다.
종합적으로 DQN 기반 접근법은 벤치마크 Q학습 방법 대비 평균 전력 발전소 스케줄링을 12.7% 감소시키고 MG 유틸리티를 22.3% 향상시켰다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.