QUICK REVIEW

[논문 리뷰] On-line Building Energy Optimization using Deep Reinforcement Learning

Elena Mocanu, Decebal Constantin Mocanu|arXiv (Cornell University)|2017. 07. 18.

Smart Grid Energy Management참고 문헌 17인용 수 44

한 줄 요약

이 논문은 실세계 Pecan Street 데이터를 사용하여 주거용 건물 에너지 관리의 온라인 최적화 프레임워크를 제안한다. 이는 딥 Q넷(DQN)과 딥 정책 그래디언트(DPG) 알고리즘을 활용한 딥 강화학습(DRL) 기반이다. 새로운 방법을 도입하여 DQN을 다중 동시 동작 제어에 확장함으로써 48개 건물에서 평균 14.1%의 비용 절감과 213.01 kW의 피크 부하 감소를 달성하였다.

ABSTRACT

Unprecedented high volumes of data are becoming available with the growth of the advanced metering infrastructure. These are expected to benefit planning and operation of the future power system, and to help the customers transition from a passive to an active role. In this paper, we explore for the first time in the smart grid context the benefits of using Deep Reinforcement Learning, a hybrid type of methods that combines Reinforcement Learning with Deep Learning, to perform on-line optimization of schedules for building energy management systems. The learning procedure was explored using two methods, Deep Q-learning and Deep Policy Gradient, both of them being extended to perform multiple actions simultaneously. The proposed approach was validated on the large-scale Pecan Street Inc. database. This highly-dimensional database includes information about photovoltaic power generation, electric vehicles as well as buildings appliances. Moreover, these on-line energy scheduling strategies could be used to provide real-time feedback to consumers to encourage more efficient use of electricity.

연구 동기 및 목표

고차원 데이터를 포함한 대규모 동적 환경에서 실시간 온라인 건물 에너지 소비 최적화 문제를 해결하기 위해.
기존 최적화 방법의 한계—높은 계산 비용과 오프라인 처리—를 극복하기 위해 딥 강화학습을 활용해 빠르고 적응형 의사결정을 가능하게 하기 위해.
히스토리컬 스마트 미터 데이터로부터 최적의 스케줄링 전략을 학습함으로써 소비자에게 실시간 피드백을 제공함으로써 수요 반응과 비용 효율성을 촉진하기 위해.
DQN을 다중 동시 동작 제어를 처리할 수 있도록 확장함으로써, 여러 기기들이 동시에 제어되는 건물 에너지 시스템에서의 실용적 구현을 가능하게 하기 위해.
개별 및 집계된 건물 수준에서 에너지 비용 최소화와 네트워크 부하 프로파일 평탄화를 위해 DQN과 DPG의 성능을 평가하고 비교하기 위해.

제안 방법

건물 에너지 관리 시스템은 마르코프 결정 과정(MDP)으로 모델링되며, 상태는 에너지 소비 및 생성 프로파일을 나타내고, 행동은 가전기기 및 저장장치 제어 결정을 의미한다.
두 가지 DRL 알고리즘을 사용한다: 가치 기반 학습을 위한 딥 Q넷(DQN)과 정책 기반 학습을 위한 딥 정책 그래디언트(DPG)이며, 안정성을 향상시키기 위해 경험 재생과 타겟 네트워크를 모두 사용하여 훈련한다.
딥 Q넷의 행동 헤드를 다중 행동 출력 벡터로 수정함으로써 다중 동시 동작 제어를 처리할 수 있도록 DQN에 새로운 확장을 제안한다. 이는 여러 기기를 동시에 제어할 수 있도록 한다.
보상 함수는 실시간 요금 신호에 기반해 에너지 비용을 최소화하도록 설계되었으며, 부하 평탄화와 피크 감소를 장려하기 위해 추가적인 형태 조정이 이루어졌다.
훈련은 15분 간격으로 고해상도 데이터를 포함한 Pecan Street Inc. 데이터셋을 사용하여 수행된다. 이 데이터셋에는 태양광 발전, 전기차, 건물 가전기기의 데이터가 포함되어 있다.
알고리즘은 개별 건물 및 집계된 건물 수준에서 평가되며, 성능 측정 기준은 비용 절감, 피크 부하 감소, 수렴 속도이다.

실험 결과

연구 질문

RQ1딥 강화학습은 낮은 지연 시간으로 실시간으로 건물 에너지 소비를 최적화하는 데 효과적으로 기여할 수 있는가?
RQ2주거용 에너지 시스템에서 비용 최소화 및 피크 부하 감소 측면에서 DQN과 DPG의 성능은 어떻게 비교되는가?
RQ3DQN 알고리즘이 건물 에너지 제어 환경에서 다중 동시 동작을 지원하도록 성공적으로 확장될 수 있는가?
RQ4DPG 알고리즘의 수렴 행동과 대규모 실세계 건물 에너지 최적화 작업에서의 장기 성능은 어떠한가?
RQ5DRL 기반 전략은 실세계 데이터셋 기반으로 수요 반응을 통해 에너지 비용을 얼마나 줄이고 전력망 안정성을 향상시킬 수 있는가?

주요 결과

제안된 DPG 방법은 48개 건물 평균적으로 매일 에너지 비용을 14.1% 감소시켰으며, DQN보다 3.4%포인트 높은 성능을 보였다.
DPG는 집계 수준에서 평균적으로 피크 부하를 213.01 kW로 줄였으며, 최적화되지 않은 경우 281.88 kW였기 때문에 24.5%의 피크 감소를 기록했다.
다중 동작 확장 기능을 적용한 DQN 방법은 48개 건물 수준에서 피크 부하를 12.98 kW 감소시켜 통합 제어의 가능성을 입증했다.
DPG 알고리즘은 약 1000 에피소드 후에 수렴이 관찰되었으며, 보상 함수는 안정화되고 장기 예측 기대치는 약 2500 에피소드까지 증가했다.
DRL 에이전트는 동적 요금 신호에 기반해 피크 시간대 외로 에너지 소비를 이전하여 비용 절감 효과를 크게 높였으며, 동시에 편안함을 해치지 않았다.
DRL 의사결정의 계산 추론 시간은 밀리초 수준이었으며, 이는 히وري스틱 방법(예: PSO)과는 달리 실시간 구현이 가능함을 의미한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.