QUICK REVIEW

[论文解读] Deep Reinforcement Learning amidst Lifelong Non-Stationarity

Annie Xie, J. Michael Harrison|arXiv (Cornell University)|Jun 18, 2020

Reinforcement Learning in Robotics参考文献 60被引用 25

一句话总结

本文提出 LILAC，一种基于策略的深度强化学习算法，通过潜在变量模型和动态先验，学习时变环境参数的潜在表征，以建模终身非平稳性。通过将策略和评论家网络基于推断的任务参数进行条件化，LILAC 在具有持续、结构化动力学与奖励变化的环境中，优于标准的 off-policy 方法（如 SAC 和 PPO），在无需 episodic 重置的情况下，仍能保持高性能。

ABSTRACT

As humans, our goals and our environment are persistently changing throughout our lifetime based on our experiences, actions, and internal and external drives. In contrast, typical reinforcement learning problem set-ups consider decision processes that are stationary across episodes. Can we develop reinforcement learning algorithms that can cope with the persistent change in the former, more realistic problem settings? While on-policy algorithms such as policy gradients in principle can be extended to non-stationary settings, the same cannot be said for more efficient off-policy algorithms that replay past experiences when learning. In this work, we formalize this problem setting, and draw upon ideas from the online learning and probabilistic inference literature to derive an off-policy RL algorithm that can reason about and tackle such lifelong non-stationarity. Our method leverages latent variable models to learn a representation of the environment from current and past experiences, and performs off-policy RL with this representation. We further introduce several simulation environments that exhibit lifelong non-stationarity, and empirically find that our approach substantially outperforms approaches that do not reason about environment shift.

研究动机与目标

为解决强化学习中因未观测到的时变参数导致环境动力学与奖励随时间变化的终身非平稳性挑战。
开发一种 off-policy 强化学习算法，能够利用过去经验适应变化的环境，克服标准 off-policy 方法假设平稳性的局限。
将问题形式化为动态参数 MDP（DP-MDP），即 POMDP 的一种结构化变体，其中任务参数在各次 episode 之间随机演化。
通过联合学习环境的潜在表征与基于推断参数的策略，实现在非平稳设置下的高效且稳定的训练。
在具有持续、周期性及可变速率变化的动力学与奖励的模拟环境中验证该方法，展示其鲁棒性与泛化能力。

提出的方法

该方法使用潜在变量模型，从观测中推断隐藏任务参数 z，从而表征非平稳 MDP。
采用动力学先验 pϕ(z′|z) 来建模任务参数随时间的演化，实现对未来环境变化的预测。
策略与评论家网络基于推断的潜在参数 z 进行条件化，使智能体能够根据预期变化调整行为。
该算法在强化学习作为概率推理的框架下推导，使用图模型统一策略学习与潜在状态估计。
通过识别网络进行近似推理，高效估计来自部分轨迹的 z，实现在 episode 内的实时适应。
该方法结合 off-policy 经验回放与潜在变量建模，即使在环境参数跨 episode 变化时，也能实现样本高效的训练。

实验结果

研究问题

RQ1off-policy 深度强化学习算法能否有效处理动力学与奖励随时间变化的终身非平稳性环境？
RQ2智能体如何仅利用过去经验预测未来环境变化，而无需显式监督？
RQ3与标准 off-policy 方法相比，潜在变量模型在非平稳控制任务中能在多大程度上提升样本效率与性能？
RQ4该方法在不同环境变化速率下（包括快速与周期性变化）是否仍保持鲁棒性？
RQ5该模型能否泛化至同时存在动力学与奖励函数变化的环境？

主要发现

在具有持续性与周期性非平稳性的环境中，LILAC 显著优于 PPO 与 SAC，保持各次 episode 的高回报，而基线方法无法适应。
在目标移动速率变化（0.2 至 0.8 弧度/episode）的 Sawyer 推拿任务中，LILAC 的性能对环境变化速率基本不变，展现出强鲁棒性。
在静态环境中，LILAC 性能与 SAC 相当，证实其在无非平稳性时仍保持强样本效率。
在 2D Open World 环境中，LILAC 成功处理无重置的连续、非 episodic 性质的环境变化，在长时空中学习到稳定策略。
该方法有效处理了动力学与奖励的同步变化，如在 HC WindVel 环境中，其他方法无法收敛，而 LILAC 表现良好。
LILAC 在非平稳与静态设置下的性能差距，归因于对后续 z 的先验估计不完美，提示可通过在线推理或贝叶斯滤波进一步改进。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。