[논문 리뷰] Safe multi-agent deep reinforcement learning for joint bidding and maintenance scheduling of generation units
이 논문은 전력시장에서 발전기 단위의 입찰 전략과 예방 정비 스케줄링을 공동으로 최적화하는 안전한 딥 디터미니스틱 포licy 그레디언트(DDPG) 강화학습 알고리즘을 제안한다. 예측된 안전 필터를 딥 RL과 통합함으로써, 부하 수요 충족과 같은 핵심 신뢰성 제약 조건을 항상 만족시키며, Q-러닝보다 높은 수익을 달성하면서도 시스템의 안전성을 유지한다.
This paper proposes a safe reinforcement learning algorithm for generation bidding decisions and unit maintenance scheduling in a competitive electricity market environment. In this problem, each unit aims to find a bidding strategy that maximizes its revenue while concurrently retaining its reliability by scheduling preventive maintenance. The maintenance scheduling provides some safety constraints which should be satisfied at all times. Satisfying the critical safety and reliability constraints while the generation units have an incomplete information of each others' bidding strategy is a challenging problem. Bi-level optimization and reinforcement learning are state of the art approaches for solving this type of problems. However, neither bi-level optimization nor reinforcement learning can handle the challenges of incomplete information and critical safety constraints. To tackle these challenges, we propose the safe deep deterministic policy gradient reinforcement learning algorithm which is based on a combination of reinforcement learning and a predicted safety filter. The case study demonstrates that the proposed approach can achieve a higher profit compared to other state of the art methods while concurrently satisfying the system safety constraints.
연구 동기 및 목표
- 부분 정보와 핵심 안전 제약 조건이 존재하는 상황에서 발전기 단위의 입찰 및 정비 스케줄링 최적화 문제를 해결한다.
- 예방 정비를 시행함으로써 시스템 신뢰성을 확보하면서 정비 비용을 최소화한다.
- 정비 기간 동안에도 항상 부하 수요를 충족시킨다.
- 연속된 행동 공간과 시스템 전체 제약 조건을 다룰 수 있는 확장 가능한 안전한 강화학습 프레임워크를 개발한다.
- 기본적인 강화학습과 이중 최적화 방법의 한계를 극복하여 불확실성과 딱딱한 제약 조건을 효과적으로 다룬다.
제안 방법
- 연속된 행동 공간에서 최적의 입찰 전략을 학습하기 위해 딥 디터미니스틱 포licy 그레디언트(DDPG) 강화학습을 적용한다.
- 시스템 전체의 안전성 및 신뢰성 제약 조건을 만족시키기 위해 원시 DDPG 행동을 수정하는 예측된 안전 필터를 도입한다.
- 단위들이 전략적으로 행동하고 ISO가 시장을 정리하는 다중 에이전트 이중 최적화 문제로 시스템을 모델링한다.
- 시간 창과 용량 제한(예: 동시에 최대 두 대의 단위 정지)이 있는 제약 조건 최적화 문제로 정비 스케줄링을 수립한다.
- 연속된 상태와 행동을 다룰 수 있도록 신경망을 함수 근사기로 사용하여 표본 Q-러닝 대비 확장성을 향상시킨다.
- 실시간으로 안전 필터를 통합한다: DDPG가 제약 조건을 위반할 경우(예: 너무 많은 단위가 정지), 필터가 결정을 조정하여 타당성을 확보한다.
실험 결과
연구 질문
- RQ1경쟁적인 전력시장에서 딱딱한 안전 제약 조건을 만족시키면서 입찰 및 정비 스케줄링을 공동으로 최적화할 수 있는 딥 강화학습 알고리즘이 존재하는가?
- RQ2부분 정보가 존재하는 다중 에이전트 시스템에서 예측된 안전 필터 통합이 표준 강화학습 대비 제약 조건 충족도를 어떻게 향상시키는가?
- RQ3제안된 안전 DDPG 방법은 수익성과 시스템 신뢰성 측면에서 전통적인 Q-러닝보다 어느 정도 뛰어나게 성능을 발휘하는가?
- RQ4알고리즘이 시간이 지남에 따라 정비 빈도, 비용, 시스템 신뢰성 간 균형을 어떻게 학습하는가?
- RQ5안전 필터가 없을 경우 훈련 중 시스템 안정성과 부하 수요 충족에 어떤 영향을 미치는가?
주요 결과
- 제안된 안전 DDPG 알고리즘은 연속된 행동 공간 처리 덕분에 수렴 속도가 빠르고, Q-러닝보다 평균 에피소드 수익이 더 높게 기록되었다.
- 안전 필터는 다수의 단위가 동시에 정비되어 부하 누락이 발생할 수 있는 시스템 신뢰성 제약 조건 위반을 효과적으로 방지하였다.
- 정비 스케줄링이 성공적으로 조율되었으며, 동시에 정지된 단위 수는 최대 두 대를 초과하지 않았고, 각 단위는 100일마다 최소 한 번 이상 정비를 수행하였다.
- 단위당 평균 정비 비용은 시간이 지남에 따라 감소하여, 알고리즘이 정비 스케줄링을 더 효율적으로 학습함을 시사한다.
- 안전 필터가 없을 경우, 좌절하거나 잘못된 타이밍의 정비로 인해 부하 수요 제약 조건 위반의 위험이 있었다.
- 특히 표본 Q-러닝이 이산화 오류로 인해 어려움을 겪는 연속 행동 환경에서 안전 DDPG는 수익성과 제약 조건 충족도 측면에서 Q-러닝을 능가하였다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.