[논문 리뷰] Near Optimal Exploration-Exploitation in Non-Communicating Markov Decision Processes
TUCRL 은 사전 지식 없이 비- 또는 약하게 소통하는 유한 MDP를 다루는 낙관적 온라인 RL 알고리즘으로, 문제 의존적 후회 경계와 잘못 명시되었거나 다중 체인 설정에서 이전 방법들을 능가합니다.
While designing the state space of an MDP, it is common to include states that are transient or not reachable by any policy (e.g., in mountain car, the product space of speed and position contains configurations that are not physically reachable). This leads to defining weakly-communicating or multi-chain MDPs. In this paper, we introduce ucrl, the first algorithm able to perform efficient exploration-exploitation in any finite Markov Decision Process (MDP) without requiring any form of prior knowledge. In particular, for any MDP with $S^{ exttt{C}}$ communicating states, $A$ actions and $Γ^{ exttt{C}} \leq S^{ exttt{C}}$ possible communicating next states, we derive a $\widetilde{O}(D^{ exttt{C}} \sqrt{Γ^{ exttt{C}} S^{ exttt{C}} AT})$ regret bound, where $D^{ exttt{C}}$ is the diameter (i.e., the longest shortest path) of the communicating part of the MDP. This is in contrast with optimistic algorithms (e.g., UCRL, Optimistic PSRL) that suffer linear regret in weakly-communicating MDPs, as well as posterior sampling or regularised algorithms (e.g., REGAL), which require prior knowledge on the bias span of the optimal policy to bias the exploration to achieve sub-linear regret. We also prove that in weakly-communicating MDPs, no algorithm can ever achieve a logarithmic growth of the regret without first suffering a linear regret for a number of steps that is exponential in the parameters of the MDP. Finally, we report numerical simulations supporting our theoretical findings and showing how TUCRL overcomes the limitations of the state-of-the-art.
연구 동기 및 목표
- 올바르게 명시되지 않았거나 도달 불가능한 상태들(비소통, 약하게 소통, 다중 체인)에서의 견고한 강화학습의 필요성 제시.
- 바이어스 스팬이나 의사소통 구조에 대한 사전 지식 없이 학습하는 알고리즘 개발.
- 실제 소통 서브세트에 맞춰 적응하는 후회 보장을 제공하고 최첨단 방법과의 비교.
제안 방법
- 보상 및 전이의 신뢰구간을 경험적 베르누이 bound를 사용해 구성하는 낙관적 온라인 RL 알고리즘 TUCRL 소개.
- 탐험된 상태로부터 소통 상태 집합(S^C_k)과 이행 상태 집합(S^T_k)을 추정하고 도달 불가능한 상태로의 가능성이 낮은 전이를 가지치기.
- 임의의 임계값 rho_t를 기반으로 일시적(transient) 상태로의 가능성이 낮은 전이를 잘라내고 이 설정에 대해 낙관적 계획 문제를 해결하여 대체 가능한 합리적 MDP 집합을 정의.
- 확장된 가치 반복을 사용해 잘려진 합리성 집합 안에서 낙관적 정책을 계산.
- 잘 방문되지 않는 쌍들의 탐험을 계속 보장하고 잘못 명시된 영역의 정체를 방지하기 위해 에피소드 종료 조건을 수정.
- 소통 직경 D^C, 소통 상태의 수 S^C, 최대 다음 상태 지원 Gamma^C, 시간 horizonte T 와 관련해 스케일되는 이론적 후회 보장을 제공.
실험 결과
연구 질문
- RQ1약하게 소통되거나 다중 체인 MDP에서 소통 서브셋에서 시작하여 TUCRL 이 최적 또는 근최적 정책을 사전 지식 없이 학습할 수 있는가?
- RQ2소통 MDP와 약하게 소통하는 MDP에서 TUCRL 의 후회 동역학은 어떠하며 UCRL 및 SCAL 과 비교하면 어떤가?
- RQ3약하게 소통하는 MDP에서 MDP 매개변수에 대한 지수적 의존 없이 로그 후회를 달성하는 데 근본적 한계가 있는가?
- RQ4명시가 잘못 되었거나 제거 가능한 상태가 탐험 및 샘플 효율성에 어떤 영향을 주며 TUCRL 은 이에 따라 적응할 수 있는가?
주요 결과
- TUCRL 은 약하게 소통하는 MDP에서 O~(D^C sqrt(Gamma^C S^C A T)) 의 후회 경계 를 달성하며, 추가적인 다항 로그 인자와 선형 초기 항을 가짐.
- 소통 MDP에서 TUCRL 은 상수 단위의 한계까지만 UCRL 에 근접하며 유한한 워밍업 기간 이후 문제 의존적 로그 후회를 달성.
- 약하게 소통하는 MDP에서 TUCRL 은 다항 의존성을 가진 다항적의 파라미터와 함께 하위 선형 sqrt(T) 후회를 달성.
- 논문은 음수 결과를 증명: 매개변수 의 지수적 의존 없이 약하게 소통하는 MDP에서 로그 후회를 달성할 수 있는 알고리즘은 존재하지 않는다.
- 택시 환경에서 잘못된 상태를 포함하는 실험, 소통 택시, 3 상태 도메인에서 이론적 결과를 지지하고 TUCRL 이 이전 방법의 한계를 극복함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.