[论文解读] Safe Exploration in Markov Decision Processes
本文提出了一种针对马尔可夫决策过程(MDPs)的安全探索框架,确保策略在高概率下保持遍历性,从而在学习过程中避免系统故障。该方法通过在保证安全的策略子集中进行约束优化来定义安全性,实现了与探索奖励机制兼容的可证明安全探索——在网格世界和火星地形模拟中均优于不安全方法,同时保持计算可行性。
In environments with uncertain dynamics exploration is necessary to learn how to perform well. Existing reinforcement learning algorithms provide strong exploration guarantees, but they tend to rely on an ergodicity assumption. The essence of ergodicity is that any state is eventually reachable from any other state by following a suitable policy. This assumption allows for exploration algorithms that operate by simply favoring states that have rarely been visited before. For most physical systems this assumption is impractical as the systems would break before any reasonable exploration has taken place, i.e., most physical systems don't satisfy the ergodicity assumption. In this paper we address the need for safe exploration methods in Markov decision processes. We first propose a general formulation of safety through ergodicity. We show that imposing safety by restricting attention to the resulting set of guaranteed safe policies is NP-hard. We then present an efficient algorithm for guaranteed safe, but potentially suboptimal, exploration. At the core is an optimization formulation in which the constraints restrict attention to a subset of the guaranteed safe policies and the objective favors exploration policies. Our framework is compatible with the majority of previously proposed exploration methods, which rely on an exploration bonus. Our experiments, which include a Martian terrain exploration problem, show that our method is able to explore better than classical exploration methods.
研究动机与目标
- 解决物理系统强化学习中因不满足遍历性而导致的安全性保障缺失问题。
- 通过在不确定性下的遍历性约束来定义MDPs中的安全性,确保探索过程中的系统稳定性。
- 开发一种高效的近似算法,实现保证安全的探索,即使精确的安全性强制是NP难问题。
- 将安全性与现有探索奖励机制集成,使该方法可兼容广泛的应用探索算法。
- 在复杂环境中验证该方法,包括一个50×100的网格世界和火星地形模拟,结果表明其在探索安全性与覆盖范围方面均有提升。
提出的方法
- 提出一种基于以最小概率δ保持遍历性的安全形式化方法,确保在策略下任意状态均可被访问。
- 将MDP动态中的不确定性建模为状态高度上的相关高斯分布,利用HiRISE数据和遥感模型构建先验信念。
- 使用熵的一阶近似作为探索奖励,以偏好信息丰富的状态转移。
- 通过线性规划施加安全性约束,将策略限制在能保持不确定性下遍历性的范围内。
- 通过凸松弛化NP难的安全策略选择问题,优化探索过程:在满足安全约束的前提下最大化探索奖励。
- 采用基于信念的MDP形式化,每一步后更新转移概率,支持基于改进知识的迭代重规划。
实验结果
研究问题
- RQ1是否可以在不依赖遍历性假设的前提下,对MDPs中的安全探索进行形式化定义?
- RQ2是否可以设计一种高效算法,在保证安全的同时仍能实现有效的探索?
- RQ3在高风险环境中,该方法与标准探索算法相比,在安全性和覆盖范围方面表现如何?
- RQ4该框架是否可以与现有探索奖励机制无缝集成而不损害安全性?
- RQ5在大规模MDP(如火星地形)中,强制执行安全约束的计算成本如何?
主要发现
- 所提出的探索方法在50×100的网格世界中成功实现探索,覆盖范围优于不安全探索方法。
- 在火星地形模拟中,该方法在0.98的安全水平下显著覆盖了更多区域,而不安全探索方法则被困于陨石坑中。
- 基于期望转移的朴素安全约束表现极差,即使在0.98的安全水平下亦然,凸显了对不确定性敏感的安全机制的必要性。
- 火星实验的平均规划时间在0.98安全水平下为每步5.86秒,安全水平越高,计算时间越长。
- 该方法在保证安全的前提下实现了接近最优的探索性能,优于不安全方法和朴素约束方法。
- 该框架可同时支持多种安全标准,例如安全集合的有限退出概率或期望奖励阈值。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。