[논문 리뷰] Exploration-Exploitation in Constrained MDPs
본 논문은 제약 CMDP에서 온라인 학습을 위한 탐색 전략을 분석하고, 다수의 알고리즘에 걸쳐 목적 성능과 제약 위반 모두에 대해 서브선형 후회(bound)를 증명하며, LP 기반 방법이 듀얼 기반 접근법보다 더 강력한 보장을 제공함을 보인다.
In many sequential decision-making problems, the goal is to optimize a utility function while satisfying a set of constraints on different utilities. This learning problem is formalized through Constrained Markov Decision Processes (CMDPs). In this paper, we investigate the exploration-exploitation dilemma in CMDPs. While learning in an unknown CMDP, an agent should trade-off exploration to discover new information about the MDP, and exploitation of the current knowledge to maximize the reward while satisfying the constraints. While the agent will eventually learn a good or optimal policy, we do not want the agent to violate the constraints too often during the learning process. In this work, we analyze two approaches for learning in CMDPs. The first approach leverages the linear formulation of CMDP to perform optimistic planning at each episode. The second approach leverages the dual formulation (or saddle-point formulation) of CMDP to perform incremental, optimistic updates of the primal and dual variables. We show that both achieves sublinear regret w.r.t.\ the main utility while having a sublinear regret on the constraint violations. That being said, we highlight a crucial difference between the two approaches; the linear programming approach results in stronger guarantees than in the dual formulation based approach.
연구 동기 및 목표
- 장기 제약이 실행 가능한 정책을 형성하는 CMDP에서 학습의 필요성을 제시한다.
- 탐색과 제약 만족 사이의 균형을 맞추는 알고리즘을 개발하고 분석한다.
- 목적 성능과 제약 위반 모두에 대한 후회 보장을 제공한다.
- 제약 조건이 있는 설정에서 LP 기반의 낙관적 계획과 듀얼 기반 접근법을 비교한다.
제안 방법
- 확장된 점유 측정 LP를 통해 CMDP에 대해 UCRL2 스타일의 낙관적 계획을 확장한다.
- 가능한 CMDP를 구성하고 낙관적으로 계획하는 OptCMDP를 도입한다.
- OptCMDP-보너스가 불확실성을 탐색 보너스로 병합하고 단일 CMDP를 해결하도록 한다. </br> Lagrangian / Mirror Descent 업데이트를 포함한 낙관적 듀얼(및 프라이멀-듀얼) 접근법(OptDual-CMDP, OptPrimalDual-CMDP)을 사용한다.
- 각 방법에 대해 목적과 제약 위반 모두에 대한 서브선형 후회(bound)를 제공한다.
- 베르스테인(Bernstein) / 호펫딩(Hoeffding) 경계로 전이 및 비용에 대한 신뢰 구간을 활용하여 낙관적 CMDP를 구축한다.
실험 결과
연구 질문
- RQ1장기 제약을 충족시키면서 미지의 CMDP에서 에이전트가 어떻게 탐색해야 하는가?
- RQ2다양한 CMDP 학습 전략에 대한 후회 보장(목적 및 제약 위반)은 어떠한가?
- RQ3CMDP에서 이론적 보장 측면에서 LP 기반의 낙관적 계획과 듀얼 기반 접근법은 어떻게 비교되는가?
- RQ4탐색 보너스나 듀얼 업데이트가 컴퓨테이션적으로 효율적이면서도 이론적으로 안전한 학습을 CMDP에서 제공할 수 있는가?
주요 결과
| 알고리즘 | Optimality Regret (Reg_+) | Constraint Regret (Reg_+) |
|---|---|---|
| OptCMDP | × | × |
| OptCMDP-bonus | × | × |
| OptDual-CMDP | × | × |
| OptPrimalDual-CMDP | × | × |
- OptCMDP는 최적성 및 제약 위반에 대해 서브선형 후회를 달성한다: Reg_+(K,c)와 Reg_+(K,d)는 tilde-O(sqrt(S N H^4 K))로 제한된다.
- OptCMDP-bonus는 단일 CMDP 해를 보다 계산적으로 효율적으로 해결하면서 OptCMDP와 동일한 서브선형 후회 차수를 달성한다.
- OptDual-CMDP의 후회 보장은 문제 매개변수와 라그랑주 승수 반경 ρ에 의존하며, 제약 후회는 (1+1/ρ) 배수를 가진다.
- OptPrimalDual-CMDP는 I와 H 의존 항을 추가로 포함한 유사한 서브선형 후회 보장을 제공한다.
- 표 1은 각 알고리즘의 후회 보장을 요약하며, LP 기반 방법이 일반적으로 듀얼 기반 접근법보다 더 강력한 보장을 달성함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.