QUICK REVIEW

[논문 리뷰] Constrained Upper Confidence Reinforcement Learning

Liyuan Zheng, Lillian J. Ratliff|arXiv (Cornell University)|2020. 01. 26.

Reinforcement Learning in Robotics참고 문헌 27인용 수 29

한 줄 요약

이 논문은 제약된 마르코프 결정 과정(CMDP)을 위한 제약된 상한 신뢰 강화학습 알고리즘인 C-UCRL을 제안한다. 이 알고리즘은 관측된 데이터를 바탕으로 참 환경 모델이 포함될 가능성이 높은 가능한 CMDP의 집합을 유지하며, 신뢰 구간을 사용하여 제약 조건을 높은 확률로 만족시키도록 보장한다. 진짜 CMDP가 에피소드 k에서 가능한 집합에서 제외될 확률이 최대 $6\delta/(\pi^2 t_k^2)$임을 증명하였고, 모든 상태-행동 쌍과 에피소드 동안 제약 조건이 만족될 확률이 최소 $1-\delta$임을 보였다.

ABSTRACT

Constrained Markov Decision Processes are a class of stochastic decision problems in which the decision maker must select a policy that satisfies auxiliary cost constraints. This paper extends upper confidence reinforcement learning for settings in which the reward function and the constraints, described by cost functions, are unknown a priori but the transition kernel is known. Such a setting is well-motivated by a number of applications including exploration of unknown, potentially unsafe, environments. We present an algorithm C-UCRL and show that it achieves sub-linear regret ($ O(T^{\frac{3}{4}}\sqrt{\log(T/δ)})$) with respect to the reward while satisfying the constraints even while learning with probability $1-δ$. Illustrative examples are provided.

연구 동기 및 목표

불확실성 하에서 제약 조건 이행을 보장하는 강화학습 알고리즘을 개발하는 것.
참 환경 모델가 포함될 가능성이 높은 가능한 CMDP의 집합을 유지하는 것.
학습 과정에서 모델 정확도와 제약 조건 이행에 대해 고확률 보장을 제공하는 것.
비용과 전이에 대한 상한 신뢰 구간을 활용하여 탐색과 제약 조건 이행을 균형 잡는 것.

제안 방법

C-UCRL은 에피소드 k까지의 관측 데이터를 바탕으로 가능한 CMDP의 집합 $\mathcal{M}_k$를 유지한다.
신뢰 구간을 사용하여 추정된 전이 확률과 비용 주변의 불확실성 집합을 구성한다.
알고리즘은 기대 보상을 최대화하면서도 신뢰 구간 내에서 제약 조건을 만족시키는 행동을 선택한다.
집중 부등식을 활용하여 참 CMDP가 가능한 집합 $\mathcal{M}_k$ 외부에 있을 확률을 근사한다.
알고리즘은 모든 상태-행동 쌍, 비용 $c_i$, 에피소드에 대해 제약 조건이 최소 $1-\delta$의 확률로 만족됨을 보장한다.

실험 결과

연구 질문

RQ1어느 특정 에피소드에서 참 CMDP가 가능한 모델 집합에서 제외될 확률은 얼마인가?
RQ2모델 불확실성 하에서 CMDP에서 탐색과 제약 조건 이행을 어떻게 균형 잡을 수 있는가?
RQ3학습 과정에서 제약 조건 이행에 대해 어떤 고확률 보장을 제공할 수 있는가?
RQ4전이와 비용에 대한 신뢰 구간은 알고리즘의 성능과 안전성에 어떤 영향을 미치는가?

주요 결과

에피소드 k에서 참 CMDP $M$이 가능한 CMDP 집합 $\mathcal{M}_k$에 포함되지 않을 확률은 최대 $6\delta/(\pi^2 t_k^2)$이다.
최소 $1-\delta$의 확률로, 모든 상태-행동 쌍, 비용 $c_i$, 에피소드 $k$에 대해 제약 조건이 만족된다.
알고리즘은 모델 정확도와 제약 조건 이행에 대해 비점근적 고확률 보장을 제공한다.
신뢰 구간은 추정 오차에 대한 강건성을 확보하기 위해 농도 부등식을 사용하여 구성된다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.