Skip to main content
QUICK REVIEW

[논문 리뷰] Risk-Constrained Reinforcement Learning with Percentile Risk Criteria

Yinlam Chow, Mohammad Ghavamzadeh|arXiv (Cornell University)|2015. 12. 05.
Reinforcement Learning in Robotics참고 문헌 40인용 수 54
한 줄 요약

이 논문은 백분위수 위험 기준, 특히 확률적 제약 조건과 조건부가치하락(Conditional Value-at-Risk, CVaR)을 사용하여 위험 제약이 있는 강화학습을 위한 정책 그래디언트 및 액터-크리틱 알고리즘을 제안한다. 라그랑주 함수의 그래디언트 추정기를 유도하여 정책과 승수의 동시 업데이트를 가능하게 하며, 위험 제약이 있는 마르코프 결정 과정(MDP)에서 국소 최적 정책으로의 수렴을 증명한다.

ABSTRACT

In many sequential decision-making problems one is interested in minimizing an expected cumulative cost while taking into account \emph{risk}, i.e., increased awareness of events of small probability and high consequences. Accordingly, the objective of this paper is to present efficient reinforcement learning algorithms for risk-constrained Markov decision processes (MDPs), where risk is represented via a chance constraint or a constraint on the conditional value-at-risk (CVaR) of the cumulative cost. We collectively refer to such problems as percentile risk-constrained MDPs. Specifically, we first derive a formula for computing the gradient of the Lagrangian function for percentile risk-constrained MDPs. Then, we devise policy gradient and actor-critic algorithms that (1) estimate such gradient, (2) update the policy in the descent direction, and (3) update the Lagrange multiplier in the ascent direction. For these algorithms we prove convergence to locally optimal policies. Finally, we demonstrate the effectiveness of our algorithms in an optimal stopping problem and an online marketing application.

연구 동기 및 목표

  • 위험 제약이 있는 마르코프 결정 과정(MDP)에 대한 강화학습에서 위험이 확률적 제약 조건 또는 CVaR로 정의되는 격차를 메운다.
  • 계산의 타당성을 유지하면서 백분위수 위험 기준을 처리할 수 있는 효율적이고 확장 가능한 강화학습 알고리즘을 개발한다.
  • 위험 제약이 있는 환경에서 정책과 라그랑주 승수의 공동 최적화를 그래디언트 기반 방법을 통해 가능하게 한다.
  • 표준 스토하스틱 근사 가정 하에 제안된 알고리즘의 이론적 수렴 보장을 제공한다.
  • 희귀하지만 높은 영향을 미치는 사건이 포함된 실제 시퀀스 결정 문제에서의 효과성을 입증한다.

제안 방법

  • 위험 제약이 있는 MDP를 확률적 제약 조건과 CVaR를 위험 지표로 사용하여 수식화하여, 위험 인식을 목적 함수에 통합한다.
  • 백분위수 위험 제약이 있는 MDP에 대해 라그랑주 함수의 그래디언트를 유도하여 그래디언트 기반 정책 최적화를 가능하게 한다.
  • 라그랑주 함수의 그래디언트를 추정하고, 음의 그래디언트 방향으로 정책을 업데이트하는 정책 그래디언트 알고리즘을 설계한다.
  • 표본 효율성을 향상시키기 위해 가치 함수 근사와 정책 그래디언트 업데이트를 조합한 액터-크리틱 알고리즘을 개발한다.
  • 세 가지 시간 스케일 스토하스틱 근사 방식을 구현: 빠른 스케일은 정책(θ), 중간 스케일은 가치 함수(v), 가장 느린 스케일은 라그랑주 승수(λ).
  • γ-점유 측도를 사용하여 편향이 없는 그래디언트 추정치를 생성하고, 마팅글 차이 오차 항을 통해 수렴을 보장한다.

실험 결과

연구 질문

  • RQ1백분위수 위험 기준이 있는 위험 제약이 있는 MDP는 강화학습을 통해 어떻게 효율적으로 수식화하고 해결할 수 있는가?
  • RQ2CVaR와 확률적 제약 조건을 포함한 위험 제약이 있는 MDP에 대해 라그랑주 함수의 올바른 그래디언트는 무엇인가?
  • RQ3정책 그래디언트와 액터-크리틱 알고리즘이 위험 제약이 있는 환경에서 정책과 라그랑주 승수를 공동으로 최적화하도록 어떻게 적응시킬 수 있는가?
  • RQ4스토하스틱 근사 하에서 이러한 알고리즘에 대해 어떤 수렴 보장을 확보할 수 있는가?
  • RQ5희귀하지만 고비용 사건을 포함한 실용적 응용 분야에서 제안된 알고리즘의 성능은 어떠한가?

주요 결과

  • 제안된 정책 그래디언트 및 액터-크리틱 알고리즘은 표준 스토하스틱 근사 조건 하에서 거의 확실히 국소 최적 정책으로 수렴한다.
  • 백분위수 위험 제약이 있는 MDP에 대해 라그랑주 함수의 그래디언트를 유도하고, 이를 통해 정책과 승수의 동시 업데이트를 가능하게 하였다.
  • 세 가지 시간 스케일 업데이트 방식은 정책, 가치 함수, 라그랑주 승수 업데이트가 각각 독립적으로 수렴하도록 보장하며, 승수 업데이트가 가장 느린 시간 스케일에서 이루어진다.
  • 실증 결과는 최적 정지 문제와 온라인 마케팅 응용 분야에서 위험 무시 기반 베이스라인 대비 제안된 알고리즘이 꼬리 위험을 줄이는 데서 뛰어난 성능을 보였다.
  • 이 방법은 효과적으로 CVaR와 확률적 제약 조건을 이행하여, 낮은 확률로 발생하더라도 고비용 사건의 발생 빈도를 최소화한다.
  • 이론적 분석을 통해 업데이트 오차 항이 편향이 점점 줄어드는 마팅글 차이 항임을 확인하였으며, 이는 국소 안장점으로의 수렴을 뒷받침한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.