[论文解读] Near Optimal Exploration-Exploitation in Non-Communicating Markov Decision Processes
TUCRL 是一种乐观的在线 RL 算法,能够在没有先验知识的情况下处理非通信或弱通信的有限 MDPs,实现与问题相关的遗憾界限并在错配或多链设置中优于先前的方法。
While designing the state space of an MDP, it is common to include states that are transient or not reachable by any policy (e.g., in mountain car, the product space of speed and position contains configurations that are not physically reachable). This leads to defining weakly-communicating or multi-chain MDPs. In this paper, we introduce ucrl, the first algorithm able to perform efficient exploration-exploitation in any finite Markov Decision Process (MDP) without requiring any form of prior knowledge. In particular, for any MDP with $S^{ exttt{C}}$ communicating states, $A$ actions and $Γ^{ exttt{C}} \leq S^{ exttt{C}}$ possible communicating next states, we derive a $\widetilde{O}(D^{ exttt{C}} \sqrt{Γ^{ exttt{C}} S^{ exttt{C}} AT})$ regret bound, where $D^{ exttt{C}}$ is the diameter (i.e., the longest shortest path) of the communicating part of the MDP. This is in contrast with optimistic algorithms (e.g., UCRL, Optimistic PSRL) that suffer linear regret in weakly-communicating MDPs, as well as posterior sampling or regularised algorithms (e.g., REGAL), which require prior knowledge on the bias span of the optimal policy to bias the exploration to achieve sub-linear regret. We also prove that in weakly-communicating MDPs, no algorithm can ever achieve a logarithmic growth of the regret without first suffering a linear regret for a number of steps that is exponential in the parameters of the MDP. Finally, we report numerical simulations supporting our theoretical findings and showing how TUCRL overcomes the limitations of the state-of-the-art.
研究动机与目标
- 在状态被错配或不可到达(非通信、弱通信、多链)的 MDP 中,推动鲁棒 RL。
- 开发在没有偏差跨度或通信结构先验知识的情况下学习的算法。
- 提供可适应真实通信子集的遗憾保证,并与最先进的方法进行比较。
提出的方法
- 引入 TUCRL,一种乐观的在线 RL 算法,使用经验伯恩斯坦界建立奖励和转移的置信集。
- 从已探索的状态构建通信状态集 S^C_k 与瞬时状态集 S^T_k 的估计,并对不太可能到达的转移进行剪枝,以排除不可到达的状态。
- 通过基于阈值 rho_t,对转移到瞬时状态的转移进行截断,从而定义一个可替代的可行 MDP 集,并在该集合上求解乐观规划问题。
- 使用扩展价值迭代在截断的可信集内计算乐观策略。
- 修改回合停止条件,确保对访问较少的状态对继续探索,并防止在错配区域的停滞。
- 提供与通信直径 D^C、通信状态计数 S^C、最大下一个状态支撑 Gamma^C 以及时间步长 T 相关的理论遗憾保证。
实验结果
研究问题
- RQ1在从一个通信子集出发的弱通信或多链 MDP 中,TUCRL 是否能在没有先验知识的情况下学习到最优或接近最优的策略?
- RQ2在通信与弱通信 MDP 中,TUCRL 的遗憾行为如何,与 UCRL 和 SCAL 相比?
- RQ3在弱通信 MDP 中在不对 MDP 参数呈指数依赖的情况下实现对数级遗憾是否存在根本性的限制?
- RQ4错配/可移除状态如何影响探索与样本效率,TUCRL 是否能够相应地进行自适应?
主要发现
- TUCRL 在弱通信 MDP 中获得的遗憾界为 O~(D^C sqrt(Gamma^C S^C A T)),另外有多对数因子和一个线性初始项。
- 在通信 MDP 中,TUCRL 在常数范围内与 UCRL 相匹配,在经过有限的热身期后实现与问题相关的对数遗憾。
- 在弱通信 MDP 中,TUCRL 实现子线性 sqrt(T) 遗憾,对 MDP 参数呈多项式依赖。
- 本文给出一个负面结果:在弱通信 MDP 中,没有一个算法能在不对 MDP 参数呈指数依赖的情况下实现对数遗憾。
- 在错配状态的出租车、通信出租车以及一个三状态域的实验支持理论发现,并显示 TUCRL 克服了先前方法的局限性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。