QUICK REVIEW

[论文解读] Constrained Upper Confidence Reinforcement Learning

Liyuan Zheng, Lillian J. Ratliff|arXiv (Cornell University)|Jan 26, 2020

Reinforcement Learning in Robotics参考文献 27被引用 29

一句话总结

本文提出C-UCRL，一种用于约束马尔可夫决策过程（CMDPs）的约束上置信度强化学习算法。它维护一个可能的CMDP集合，并使用置信区间确保以高概率满足约束，证明在第k轮中，真实CMDP被排除在可能集合之外的概率至多为$6\delta/(\pi^2 t_k^2)$，且在所有状态-动作对和所有轮次中，约束以至少$1-\delta$的概率被满足。

ABSTRACT

Constrained Markov Decision Processes are a class of stochastic decision problems in which the decision maker must select a policy that satisfies auxiliary cost constraints. This paper extends upper confidence reinforcement learning for settings in which the reward function and the constraints, described by cost functions, are unknown a priori but the transition kernel is known. Such a setting is well-motivated by a number of applications including exploration of unknown, potentially unsafe, environments. We present an algorithm C-UCRL and show that it achieves sub-linear regret ($ O(T^{\frac{3}{4}}\sqrt{\log(T/δ)})$) with respect to the reward while satisfying the constraints even while learning with probability $1-δ$. Illustrative examples are provided.

研究动机与目标

开发一种强化学习算法，在不确定性下确保CMDPs中的约束满足。
维护一个可能包含真实环境模型的CMDP集合。
在学习过程中，对模型准确性和约束合规性提供高概率保证。
利用成本和转移的上置信度，平衡探索与约束遵守。

提出的方法

C-UCRL基于第k轮为止的观测数据，维护一个可能的CMDP集合$\mathcal{M}_k$。
它使用置信区间，为估计的转移概率和成本构建不确定性集合。
该算法选择能最大化期望奖励且在置信区间内确保满足约束的动作。
它利用集中不等式，限制真实CMDP位于可能集合$\mathcal{M}_k$之外的概率。
该算法确保在所有状态-动作对、成本和轮次中，约束以至少$1-\delta$的概率被满足。

实验结果

研究问题

RQ1在任意给定轮次中，真实CMDP被排除在可能模型集合之外的概率是多少？
RQ2在模型不确定性下，如何在CMDPs中平衡探索与约束满足？
RQ3在学习过程中，可以对约束遵守提供哪些高概率保证？
RQ4对转移和成本的置信区间如何影响算法的性能和安全性？

主要发现

在第k轮，真实CMDP $M$ 不在可能CMDP集合$\mathcal{M}_k$ 中的概率至多为$6\delta/(\pi^2 t_k^2)$。
以至少$1-\delta$的概率，所有约束在每个状态-动作对、成本$c_i$和轮次$k$中均被满足。
该算法为模型准确性和约束合规性提供了非渐近的、高概率的保证。
置信区间通过集中不等式构建，以确保对估计误差的鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。