QUICK REVIEW

[논문 리뷰] Controlling Commercial Cooling Systems Using Reinforcement Learning

Jerry Luo, Cosmin Păduraru|arXiv (Cornell University)|2022. 11. 11.

Smart Grid Energy Management인용 수 22

한 줄 요약

본 논문은 오프라인 및 라이브 데이터로 학습하여 안전 및 운영 제약을 준수하면서 에너지 소비를 줄이는 상용 칠러 플랜트용 RL 기반 제어기인 BCOOLER를 제시하며, 두 가지 실제 운용에서 9%와 13%의 에너지 절감을 달성했다.

ABSTRACT

This paper is a technical overview of DeepMind and Google's recent work on reinforcement learning for controlling commercial cooling systems. Building on expertise that began with cooling Google's data centers more efficiently, we recently conducted live experiments on two real-world facilities in partnership with Trane Technologies, a building management system provider. These live experiments had a variety of challenges in areas such as evaluation, learning from offline data, and constraint satisfaction. Our paper describes these challenges in the hope that awareness of them will benefit future applied RL work. We also describe the way we adapted our RL system to deal with these challenges, resulting in energy savings of approximately 9% and 13% respectively at the two live experiment sites.

연구 동기 및 목표

상용 칠러 플랜트의 실시간 감독 제어를 위한 강화학습의 시연.
제한된 데이터에서의 학습, 제약 만족, 그리고 실시설의 비정상적 동역학을 다루는 도전과제.
두 개의 실제 건물에서 휴리스틱 SOO 제어기와 비교한 에너지 효율 향상을 보여준다.
산업 제약 내에서 RL이 안전하게 작동하도록 하는 실용적 적응 방법들을 설명한다.

제안 방법

칠러 플랜트 제어를 50개의 상태 특징과 12개의 액션 설정으로 제약된 MDP로 형식화한다.
에너지 사용 및 관찰 제약 위반을 예측하는 앙상블 기반의 제약된 RL 학습기인 BCOOLER를 개발한다.
다중 헤드 신경망과 함께 에너지 및 제약 예측에 몬테카를로 스타일의 타겟을 사용한다.
불확실성 추정을 위해 네트워크 앙상블을 활용하고 제약 필터링으로 탐색을 유도한다.
실시간 추론을 가능하게 하기 위해 5분 단위 시점 의사결정에서 행동 가지치기와 모드 인식 액션 마스킹을 수행한다.
변하는 조건에 적응하기 위해 오프라인 및 온라인 데이터로 매일 모델을 재훈련한다.

실험 결과

연구 질문

RQ1RL 기반 제어기가 안전 및 운영 제약을 준수하면서 상용 칠러 플랜트의 에너지 효율을 높일 수 있는가?
RQ2데이터 부족, 제약, 비정상성 등 실제 건물에서 RL을 배치할 때 어떤 도전이 생기고 이를 어떻게 완화할 수 있는가(데이터 부족, 제약, 비정상성)?
RQ3BCOOLER가 실제 운영에서 기존 SOO 기반 휴리스틱과 어떻게 비교되는가?
RQ4다양한 건물 및 운영 모드에 걸쳐 RL의 확장 가능한 배치를 가능하게 하는 관행은 무엇인가?

주요 결과

BCOOLER가 한 개의 실시간 현장에서는 SOO 기준 대비 9%의 에너지 절감을, 다른 현장에서는 13%의 에너지 절감을 달성했다.
RL 시스템은 관찰된 제약을 기준선과 유사하게 준수함으로써 점유자 편안함을 유지했다.
데이터가 더 축적되고 소프트웨어 개선이 이루어지면서 시간이 지남에 따라 성능이 향상되었다.
RF 기반 앙상블 접근은 탐색과 제약 만족의 균형을 맞추는 데 사용된 불확실성 추정치를 제공했다.
다수의 칠러와 큰 액션 공간을 가지는 경우도 행동 가지치기와 모드별 마스킹으로 처리한다.
시설 예비 시운전 및 AI 준비 노력과 함께 적용하면 더 큰 이득이 가능하다는 시사점을 제공한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.