QUICK REVIEW

[论文解读] Keep Doing What Worked: Behavioral Modelling Priors for Offline Reinforcement Learning

Noah Siegel, Jost Tobias Springenberg|arXiv (Cornell University)|Feb 19, 2020

Reinforcement Learning in Robotics参考文献 33被引用 48

一句话总结

论文在离线强化学习之前引入一种优势加权行为模型（ABM）先验，通过使策略偏向在当前任务中更可能成功的数据中出现的行动来稳定学习，从异质数据源实现稳定学习。

ABSTRACT

Off-policy reinforcement learning algorithms promise to be applicable in settings where only a fixed data-set (batch) of environment interactions is available and no new experience can be acquired. This property makes these algorithms appealing for real world problems such as robot control. In practice, however, standard off-policy algorithms fail in the batch setting for continuous control. In this paper, we propose a simple solution to this problem. It admits the use of data generated by arbitrary behavior policies and uses a learned prior -- the advantage-weighted behavior model (ABM) -- to bias the RL policy towards actions that have previously been executed and are likely to be successful on the new task. Our method can be seen as an extension of recent work on batch-RL that enables stable learning from conflicting data-sources. We find improvements on competitive baselines in a variety of RL tasks -- including standard continuous control benchmarks and multi-task learning for simulated and real-world robots.

研究动机与目标

在在线交互不可能或成本高昂、尤其是在机器人领域时，学习固定批量数据的动机。
开发一种方法，在利用任意行为数据的同时，避免数据未覆盖的动作。
通过将更新约束在接近学习到的数据驱动先验来实现策略改进的稳定性。
展示在持续控制基准和多任务机器人任务中的稳定性与性能提升。

提出的方法

提出一种策略迭代框架，在其中通过保持策略接近学习到的先验的约束来改进策略。
学习一个先验策略，可以是简单的行为模型（BM）或强调数据支持、任务相关行动的优势加权行为模型（ABM）。
在离线设置中，使用当前策略对 V 目标进行 TD 误差最小化来评估 Q，避免对行动取最大。
策略改进步骤中，在对先验的 KL 约束下最大化期望 Q：Eτ[ Ea~π(a|s)[Q̂πi(s,a)] ]，并且满足 KL(π(·|s) || π_prior(·|s)) ≤ ε。
可选地实现 EM 风格优化（受 MPO 启发）或随机值梯度优化来求解受约束目标。
ABM 目标用它们实现的优势 R(τt:N) − V̂πi(st) 的函数对数据片段加权，聚焦于有益的行动，同时保持在数据覆盖范围内。

实验结果

研究问题

RQ1一个自适应、数据驱动的先验能否使来自混合行为数据和多任务的离线 RL 变得稳定？
RQ2将策略改进限制在学习到的先验上，是否能防止固定批量 RL 中的过估计和外推误差？
RQ3在处理冲突或多模态数据时，优势加权先验（ABM）与简单行为模型先验相比如何？
RQ4所提出的方法能否在离线数据中实现机器人操作的多任务学习和迁移？
RQ5当使用离线数据的策略迭代方案时，策略评估步骤是否足以稳定学习？

主要发现

ABM 先验使从批量数据稳定学习成为可能，并在持续控制基准上相较于强基线提升性能。
BM 先验在简单领域有帮助，但 ABM 更好地处理冲突数据和多模态行为，如 Hopper 与 Quadruped 任务所示。
ABM 增强方法在 control-suite 任务和仿真中的多任务机器人操作方面，与 BEAR 和 BCQ 基线相比具有竞争力或更优。
该方法还表明 ABM+MPO 能从包含相关轨迹的数据学习新任务，并且能够在真实 Sawyer 机器人上从日志数据中以更短时间重新学习七个任务。
在离线 MPO 下使用 ABM，在仿真与真实机器人实验中均取得改进，包括多任务学习和数据驱动的任务迁移。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。