QUICK REVIEW

[论文解读] Modular Deep Reinforcement Learning with Temporal Logic Specifications

Lim Zun Yuan, Mohammadhosein Hasanbeig|arXiv (Cornell University)|Sep 23, 2019

Reinforcement Learning in Robotics参考文献 29被引用 23

一句话总结

该论文提出了一种模块化、演员-评论家、无模型的深度强化学习框架，用于处理具有稀疏奖励和复杂时间结构的连续状态与连续动作的马尔可夫决策过程（MDP）。该方法使用线性时序逻辑（LTL）来指定高层任务目标，构建运行时的产物自动机，采用模块化深度确定性策略梯度（DDPG）学习子策略，在火星巡视器路径规划任务中实现了98.8%的成功率，在更复杂的陨石坑穿越场景中实现了100%的成功率。

ABSTRACT

We propose an actor-critic, model-free, and online Reinforcement Learning (RL) framework for continuous-state continuous-action Markov Decision Processes (MDPs) when the reward is highly sparse but encompasses a high-level temporal structure. We represent this temporal structure by a finite-state machine and construct an on-the-fly synchronised product with the MDP and the finite machine. The temporal structure acts as a guide for the RL agent within the product, where a modular Deep Deterministic Policy Gradient (DDPG) architecture is proposed to generate a low-level control policy. We evaluate our framework in a Mars rover experiment and we present the success rate of the synthesised policy.

研究动机与目标

解决在具有高度稀疏奖励和复杂时间依赖性的连续状态与连续动作MDP中学习最优策略的挑战。
实现在无中间监督或预定义选项的情况下，一次性、无监督地学习分层策略。
将形式化时序逻辑规范（LTL）作为探索和策略学习的内在引导，集成到深度强化学习中。
克服离散MDP和以往无模型强化学习方法在处理具有时序逻辑约束的连续空间时的局限性。
在现实世界类机器人导航任务中展示该框架的有效性，例如具有顺序性和安全关键约束的火星巡视器路径规划。

提出的方法

该框架使用线性时序逻辑（LTL）正式指定高层任务目标，包括序列、安全性和活锁性质。
将LTL公式转换为Büchi自动机，以有限状态机的形式表示任务的时间结构。
在MDP与自动机之间构建运行时的同步产物，实现实时状态追踪，而无需显式构造产物。
基于自动机的结构自动生成奖励函数，引导智能体满足LTL属性。
采用模块化深度确定性策略梯度（DDPG）架构，其中每个模块对应于从LTL分解得出的一个子任务。
在连续状态和动作空间中，联合优化LTL特定的子策略，实现端到端训练，无需人工提供的中间奖励。

实验结果

研究问题

RQ1深度强化学习智能体是否能够在仅具有稀疏密集奖励的连续状态与连续动作MDP中学习复杂的时间结构化任务？
RQ2如何在无监督的、在线的无模型强化学习框架中有效集成形式化时序逻辑（LTL），以引导探索和策略学习？
RQ3所提出的模块化DDPG框架是否能够自动将LTL规范分解为可学习的子策略，同时保持全局任务满足性？
RQ4该框架在具有顺序性和安全关键约束的真实世界机器人导航任务（如火星巡视器路径规划）中的表现如何？
RQ5在高度稀疏奖励的任务中，该框架与标准DDPG相比，在成功率和样本效率方面表现如何？

主要发现

在Melas Chasma火星巡视器实验中，该框架在200次测试运行中实现了98.8%的成功率，显著优于仅21.4%成功率的标准DDPG。
在更复杂的Victoria陨石坑任务中，该框架在200次运行中实现了100%的成功率，证明其能够处理复杂的顺序性和安全关键约束。
该算法通过利用来自LTL自动机的负奖励信号，成功学习避开危险区域（如陨石坑边缘），而标准DDPG在缺乏此类引导时未能学会这一行为。
模块化DDPG架构实现了LTL任务的自动分解，形成渐进式子任务，智能体能够按顺序学习通过检查点。
运行时产物构造实现了高效的实时状态追踪与奖励塑造，避免了预先计算完整产物空间的计算负担。
该框架展示了复杂策略的一次性、无监督学习，无需在更简单的子任务上进行预训练，也无需人工提供的中间奖励。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。