[论文解读] Logically-Correct Reinforcement Learning.
该论文提出了一种强化学习算法,通过将线性时序性质转换为极限确定性Buchi自动机(LDBA),构建产品MDP,并基于LDBA的接受条件分配奖励,从而合成满足线性时序性质的MDP策略。该方法使在线值迭代能够计算最大满足概率,相比先前方法将迭代次数减少了10倍。
We propose a novel Reinforcement Learning (RL) algorithm to synthesize policies for a Markov Decision Process (MDP), such that a linear time property is satisfied. We convert the property into a Limit Deterministic Buchi Automaton (LDBA), then construct a product MDP between the automaton and the original MDP. A reward function is then assigned to the states of the product automaton, according to accepting conditions of the LDBA. With this reward function, RL synthesizes a policy that satisfies the property: as such, the policy synthesis procedure is constrained by the given specification. Additionally, we show that the RL procedure sets up an online value iteration method to calculate the maximum probability of satisfying the given property, at any given state of the MDP - a convergence proof for the procedure is provided. Finally, the performance of the algorithm is evaluated via a set of numerical examples. We observe an improvement of one order of magnitude in the number of iterations required for the synthesis compared to existing approaches.
研究动机与目标
- 为解决合成可证明满足复杂线性时序时态逻辑性质的MDP策略的挑战。
- 通过利用自动机理论合成技术,将形式化规格检查与强化学习相结合。
- 在策略学习过程中实现对满足给定性质的最大概率的在线计算。
- 与现有方法相比,减少策略合成所需的训练迭代次数。
提出的方法
- 将线性时序性质转换为极限确定性Buchi自动机(LDBA),以表示期望行为。
- 通过将LDBA与原始MDP组合,构建产品MDP,以编码联合状态空间。
- 基于LDBA的接受条件,在产品MDP的状态上定义奖励函数,以引导策略学习。
- 在奖励函数下应用强化学习,以合成最大化满足性质概率的策略。
- 使用在线值迭代过程,从MDP的任意状态估计最大满足概率。
- 为所提出的奖励结构下的在线值迭代过程提供收敛性证明。
实验结果
研究问题
- RQ1强化学习能否通过形式化规格有效引导,以合成MDP的正确性构造策略?
- RQ2在策略学习过程中,如何在线性地计算满足线性时序性质的最大概率?
- RQ3基于自动机接受条件的何种奖励设计策略可确保收敛到满足规格的策略?
- RQ4与现有基于规格引导的强化学习方法相比,该方法在多大程度上减少了学习迭代次数?
主要发现
- 所提出的方法通过将规格编码为LDBA,并通过产品构造将其集成到MDP中,成功合成了满足给定线性时序性质的策略。
- 基于LDBA接受条件推导出的奖励函数,在训练过程中有效引导强化学习智能体朝向满足性质的方向。
- 在线值迭代过程收敛到MDP中任意状态的真实最大满足概率,论文中已证明该结论。
- 数值评估显示,与现有方法相比,策略合成所需的迭代次数减少了一个数量级。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。