QUICK REVIEW

[论文解读] Model-based Reinforcement Learning for Semi-Markov Decision Processes with Neural ODEs

Jianzhun Du, Joseph Futoma|arXiv (Cornell University)|Jun 29, 2020

Reinforcement Learning in Robotics参考文献 56被引用 25

一句话总结

本文提出了一种基于模型的强化学习框架，用于半马尔可夫决策过程（SMDPs），利用神经微分方程（ODEs）对连续时间动态进行建模。通过在神经ODE中引入动作和时间，结合ODE-RNN与潜在ODE（Latent-ODE）架构，该方法实现了高样本效率，并支持在不规则时间调度下进行策略迁移，在连续时间控制与医疗环境任务中，仅需极少的环境交互数据即优于模型无关基线方法。

ABSTRACT

We present two elegant solutions for modeling continuous-time dynamics, in a novel model-based reinforcement learning (RL) framework for semi-Markov decision processes (SMDPs), using neural ordinary differential equations (ODEs). Our models accurately characterize continuous-time dynamics and enable us to develop high-performing policies using a small amount of data. We also develop a model-based approach for optimizing time schedules to reduce interaction rates with the environment while maintaining the near-optimal performance, which is not possible for model-free methods. We experimentally demonstrate the efficacy of our methods across various continuous-time domains.

研究动机与目标

为解决标准深度强化学习在连续时间环境中的局限性，开发一种能够捕捉连续动态的基于模型方法。
通过联合建模状态转移与时间间隔，利用神经ODE实现仅需极少环境交互的高效策略学习。
支持在不同测量与动作时间表之间进行策略迁移，降低交互频率而不牺牲性能。
通过在动态模型中引入隐状态，处理部分可观察环境。
在连续时间控制与医疗领域中，证明该方法优于模型无关与离散时间基线方法。

提出的方法

将神经ODE扩展以包含动作与时间作为输入，从而在半马尔可夫决策过程（SMDPs）中建模连续时间动态。
提出两种架构：ODE-RNN利用循环结构处理时间连续动态；Latent-ODE采用编码器-解码器结构，结合潜在ODE进行状态表示。
将动态模型整合进统一框架，用于在SMDPs中同时学习状态转移与干预间隔分布。
利用学习到的动态模型在不同交互时间表下进行规划与策略优化，实现环境交互频率的降低。
采用变分推断训练潜在ODE，通过从潜在轨迹重建观测序列。
将模型应用于将一种时间表下训练的策略迁移至另一时间表，验证其在不规则采样下的鲁棒性。

实验结果

研究问题

RQ1神经ODE能否有效建模具有不规则观测与动作间隔的半马尔可夫决策过程中的连续时间动态？
RQ2基于神经ODE的基于模型强化学习方法能否在显著少于模型无关方法的环境交互次数下实现高性能？
RQ3在一种交互时间表下学习到的策略能否有效迁移到另一时间表，从而降低交互频率并保持性能？
RQ4与标准RNN及时间感知RNN变体相比，基于ODE的模型在建模连续时间动态方面表现如何？
RQ5通过维持捕捉未观测动态的隐状态，该模型能否有效处理部分可观察环境？

主要发现

在所有测试环境中，Latent-ODE与ODE-RNN在建模连续时间动态方面均优于RNN、Δt-RNN、Decay-RNN与Latent-RNN。
在HIV环境中，带有隐状态的基于模型策略（π^MB(a|s_partial,z)）比模型无关策略与普通基于模型策略更快达到更优性能。
在强风网格世界与单级杆任务中，Latent-ODE在所有时间离散化设置下均超越所有基线方法，尤其在不规则或粗粒度采样间隔下表现更优。
在不规则时间表下训练的策略能良好泛化至规则时间表，即使时间间隔τ从1增加至7，Latent-ODE仍保持高性能。
与恒定干预相比，基于模型的方法在HIV环境中将交互频率降低了高达70%，同时保持接近最优的性能。
ODE-RNN与Latent-ODE在不同时间间隔下表现出鲁棒性，其性能在τ = 1至τ = 7范围内保持稳定，而基于RNN的模型性能显著下降。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。