Skip to main content
QUICK REVIEW

[论文解读] Constrained Upper Confidence Reinforcement Learning

Liyuan Zheng, Lillian J. Ratliff|arXiv (Cornell University)|Jan 26, 2020
Reinforcement Learning in Robotics参考文献 27被引用 29
一句话总结

本文提出C-UCRL,一种用于约束马尔可夫决策过程(CMDPs)的约束上置信度强化学习算法。它维护一个可能的CMDP集合,并使用置信区间确保以高概率满足约束,证明在第k轮中,真实CMDP被排除在可能集合之外的概率至多为$6\delta/(\pi^2 t_k^2)$,且在所有状态-动作对和所有轮次中,约束以至少$1-\delta$的概率被满足。

ABSTRACT

Constrained Markov Decision Processes are a class of stochastic decision problems in which the decision maker must select a policy that satisfies auxiliary cost constraints. This paper extends upper confidence reinforcement learning for settings in which the reward function and the constraints, described by cost functions, are unknown a priori but the transition kernel is known. Such a setting is well-motivated by a number of applications including exploration of unknown, potentially unsafe, environments. We present an algorithm C-UCRL and show that it achieves sub-linear regret ($ O(T^{\frac{3}{4}}\sqrt{\log(T/δ)})$) with respect to the reward while satisfying the constraints even while learning with probability $1-δ$. Illustrative examples are provided.

研究动机与目标

  • 开发一种强化学习算法,在不确定性下确保CMDPs中的约束满足。
  • 维护一个可能包含真实环境模型的CMDP集合。
  • 在学习过程中,对模型准确性和约束合规性提供高概率保证。
  • 利用成本和转移的上置信度,平衡探索与约束遵守。

提出的方法

  • C-UCRL基于第k轮为止的观测数据,维护一个可能的CMDP集合$\mathcal{M}_k$。
  • 它使用置信区间,为估计的转移概率和成本构建不确定性集合。
  • 该算法选择能最大化期望奖励且在置信区间内确保满足约束的动作。
  • 它利用集中不等式,限制真实CMDP位于可能集合$\mathcal{M}_k$之外的概率。
  • 该算法确保在所有状态-动作对、成本和轮次中,约束以至少$1-\delta$的概率被满足。

实验结果

研究问题

  • RQ1在任意给定轮次中,真实CMDP被排除在可能模型集合之外的概率是多少?
  • RQ2在模型不确定性下,如何在CMDPs中平衡探索与约束满足?
  • RQ3在学习过程中,可以对约束遵守提供哪些高概率保证?
  • RQ4对转移和成本的置信区间如何影响算法的性能和安全性?

主要发现

  • 在第k轮,真实CMDP $M$ 不在可能CMDP集合$\mathcal{M}_k$ 中的概率至多为$6\delta/(\pi^2 t_k^2)$。
  • 以至少$1-\delta$的概率,所有约束在每个状态-动作对、成本$c_i$和轮次$k$中均被满足。
  • 该算法为模型准确性和约束合规性提供了非渐近的、高概率的保证。
  • 置信区间通过集中不等式构建,以确保对估计误差的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。