[论文解读] Constrained Upper Confidence Reinforcement Learning
本文提出C-UCRL,一种用于约束马尔可夫决策过程(CMDPs)的约束上置信度强化学习算法。它维护一个可能的CMDP集合,并使用置信区间确保以高概率满足约束,证明在第k轮中,真实CMDP被排除在可能集合之外的概率至多为$6\delta/(\pi^2 t_k^2)$,且在所有状态-动作对和所有轮次中,约束以至少$1-\delta$的概率被满足。
Constrained Markov Decision Processes are a class of stochastic decision problems in which the decision maker must select a policy that satisfies auxiliary cost constraints. This paper extends upper confidence reinforcement learning for settings in which the reward function and the constraints, described by cost functions, are unknown a priori but the transition kernel is known. Such a setting is well-motivated by a number of applications including exploration of unknown, potentially unsafe, environments. We present an algorithm C-UCRL and show that it achieves sub-linear regret ($ O(T^{\frac{3}{4}}\sqrt{\log(T/δ)})$) with respect to the reward while satisfying the constraints even while learning with probability $1-δ$. Illustrative examples are provided.
研究动机与目标
- 开发一种强化学习算法,在不确定性下确保CMDPs中的约束满足。
- 维护一个可能包含真实环境模型的CMDP集合。
- 在学习过程中,对模型准确性和约束合规性提供高概率保证。
- 利用成本和转移的上置信度,平衡探索与约束遵守。
提出的方法
- C-UCRL基于第k轮为止的观测数据,维护一个可能的CMDP集合$\mathcal{M}_k$。
- 它使用置信区间,为估计的转移概率和成本构建不确定性集合。
- 该算法选择能最大化期望奖励且在置信区间内确保满足约束的动作。
- 它利用集中不等式,限制真实CMDP位于可能集合$\mathcal{M}_k$之外的概率。
- 该算法确保在所有状态-动作对、成本和轮次中,约束以至少$1-\delta$的概率被满足。
实验结果
研究问题
- RQ1在任意给定轮次中,真实CMDP被排除在可能模型集合之外的概率是多少?
- RQ2在模型不确定性下,如何在CMDPs中平衡探索与约束满足?
- RQ3在学习过程中,可以对约束遵守提供哪些高概率保证?
- RQ4对转移和成本的置信区间如何影响算法的性能和安全性?
主要发现
- 在第k轮,真实CMDP $M$ 不在可能CMDP集合$\mathcal{M}_k$ 中的概率至多为$6\delta/(\pi^2 t_k^2)$。
- 以至少$1-\delta$的概率,所有约束在每个状态-动作对、成本$c_i$和轮次$k$中均被满足。
- 该算法为模型准确性和约束合规性提供了非渐近的、高概率的保证。
- 置信区间通过集中不等式构建,以确保对估计误差的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。