QUICK REVIEW

[논문 리뷰] Transforming Cooling Optimization for Green Data Center via Deep Reinforcement Learning

Yuanlong Li, Yonggang Wen|arXiv (Cornell University)|2017. 09. 15.

Reinforcement Learning in Robotics참고 문헌 28인용 수 37

한 줄 요약

이 논문은 모니터링 데이터에서 직접 학습하는 엔드 투 엔드 딥 강화학습(DRL) 프레임워크인 쿨링 제어 알고리즘(CCA)을 제안한다. 이는 액터-크리틱 및 오프-폴리시 DDPG 알고리즘 기반으로, 데이터센터 냉각을 최적화하기 위한 것이다. 시뮬레이션에서는 11%의 냉각 에너지 절감을 달성하였고, 실제 트레이스 기반 평가에서는 최대 15%의 절감을 기록하였다. 이는 과도하게 낙관적인 성능 추정을 방지하기 위해 탈-언더에스티메이션(De-underestimation, DUE) 검증 메커니즘을 도입하여 보수적이고 신뢰할 수 있는 성능 추정을 보장한 결과이다.

ABSTRACT

Cooling system plays a critical role in a modern data center (DC). Developing an optimal control policy for DC cooling system is a challenging task. The prevailing approaches often rely on approximating system models that are built upon the knowledge of mechanical cooling, electrical and thermal management, which is difficult to design and may lead to sub-optimal or unstable performances. In this paper, we propose utilizing the large amount of monitoring data in DC to optimize the control policy. To do so, we cast the cooling control policy design into an energy cost minimization problem with temperature constraints, and tap it into the emerging deep reinforcement learning (DRL) framework. Specifically, we propose an end-to-end cooling control algorithm (CCA) that is based on the actor-critic framework and an off-policy offline version of the deep deterministic policy gradient (DDPG) algorithm. In the proposed CCA, an evaluation network is trained to predict an energy cost counter penalized by the cooling status of the DC room, and a policy network is trained to predict optimized control settings when gave the current load and weather information. The proposed algorithm is evaluated on the EnergyPlus simulation platform and on a real data trace collected from the National Super Computing Centre (NSCC) of Singapore. Our results show that the proposed CCA can achieve about 11% cooling cost saving on the simulation platform compared with a manually configured baseline control algorithm. In the trace-based study, we propose a de-underestimation validation mechanism as we cannot directly test the algorithm on a real DC. Even though with DUE the results are conservative, we can still achieve about 15% cooling energy saving on the NSCC data trace if we set the inlet temperature threshold at 26.6 degree Celsius.

연구 동기 및 목표

복잡하고 모델링하기 어려운 열역학적 및 기계적 동역학으로 인해 데이터센터에서 최적화되지 않거나 불안정한 냉각 제어가 발생하는 문제를 해결하기 위해.
세부 시스템 모델링이 필요 없이 데이터 기반의 엔드 투 엔드 제어 정책을 개발하기 위해.
실제 데이터센터 환경에서 온도 제약 조건을 유지하면서도 냉각 에너지 소비를 줄이기 위해.
실제 시뮬레이션 및 실세계 데이터 트레이스를 기반으로 제안된 방법을 검증하여 실용적 타당성을 확보하기 위해.
실제 구현 시 과도하게 낙관적인 에너지 절감 추정을 방지하기 위해 탈-언더에스티메이션(Due, DUE) 검증 메커니즘을 도입하기 위해.

제안 방법

CCA 프레임워크는 이전 모니터링 데이터에서 직접 학습하는 엔드 투 엔드 제어 정책을 학습하기 위해 액터-크리틱 딥 강화학습 아키텍처를 사용한다.
샘플 효율성과 학습 안정성을 향상시키기 위해 오프-폴리시 오프라인 DDPG 알고리즘의 변형을 적용한다.
평가 네트워크(크리틱)는 비준수 냉각 상태에 대한 벌점이 포함된 에너지 비용을 예측하고, 정책 네트워크(액터)는 현재의 부하 및 날씨 입력에 기반해 최적의 제어 조치를 출력한다.
보상 함수는 에너지 비용을 최소화하면서 온도 제약 조건을 강제로 이행하도록 설계되었으며, 하이퍼파라미터 λ에 의해 제어되는 벌점 항목이 포함되어 있다.
실제 구현 시 과도하게 낙관적인 결과를 방지하기 위해, 예측된 온도의 과소평가에만 벌점을 주는 손실 함수를 사용하는 탈-언더에스티메이션(DUE) 검증 방법을 도입하였다.
해당 방법은 EnergyPlus 시뮬레이션 플랫폼과 국립 슈퍼컴퓨팅센터(NSCC)의 실제 데이터 트레이스를 기반으로 평가되었으며, 랙 전력, 유량, 공급 온도 등의 상태 특징을 사용하였다.

실험 결과

연구 질문

RQ1엔드 투 엔드 딥 강화학습 접근 방식이 전통적인 이중 단계 모델 기반 최적화보다 데이터센터 냉각에서 더 우수한 성능을 보일 수 있는가?
RQ2직접 구현이 불가능한 상황에서 DRL 기반 정책이 실제 세계 데이터에 얼마나 잘 일반화되는가?
RQ3벌점 하이퍼파라미터 λ의 선택이 에너지 절감과 온도 준수 사이의 트레이드오��에서 어떤 영향을 미치는가?
RQ4탈-언더에스티메이션(DUE) 검증 방법이 표준 검증 방식보다 더 신뢰할 수 있고 보수적인 성능 추정을 제공할 수 있는가?
RQ5학습된 정책이 안전한 랙 인let 온도를 유지하면서 냉각 에너지 소비를 얼마나 줄일 수 있는가?

주요 결과

CCA 알고리즘은 EnergyPlus 시뮬레이션 플랫폼에서 수동으로 설정된 기준 대비 약 11%의 냉각 에너지 절감을 달성하였다.
실제 NSCC 데이터 트레이스에서는 입구 온도 기준치를 26.6°C로 설정했을 때 최대 15%의 냉각 에너지 절감을 기록하였다. 이는 DUE 검증 방법을 사용한 결과이다.
DUE 검증 방법은 온도 예측의 과소평가 편향을 효과적으로 줄여, 보수적이고 신뢰할 수 있는 성능 추정을 가능하게 하였다.
λ가 증가함에 따라 에너지 절감은 감소하고 최대 랙 온도는 감소함을 확인하여, 효율성과 열 안전성 사이의 조절 가능한 트레이드오프를 확인할 수 있었다.
DRL 모델은 노이즈가 많은 실세계 데이터 조건에서도 시스템 동역학을 잘 포착하였으며, 온도 예측의 평균 절대 오차(MAE)가 0.1°C 이하로 매우 낮았다.
트레이스 기반 테스트를 통해 정책 네트워크는 다양한 부하 및 기상 조건에서도 최적의 공기 유량 예측에 있어 뛰어난 강건성을 보였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.