QUICK REVIEW

[论文解读] Keep Doing What Worked: Behavior Modelling Priors for Offline Reinforcement Learning

Noah Siegel, Jost Tobias Springenberg|arXiv (Cornell University)|Apr 30, 2020

Reinforcement Learning in Robotics参考文献 28被引用 55

一句话总结

本文提出一种行为建模先验——优势加权行为模型（ABM），通过偏向数据集中以往成功的行为来稳定连续控制的离线强化学习。该方法在基准任务和真实世界机器人学习中均优于竞争性基线模型，即使在数据源冲突的情况下亦表现优异。

ABSTRACT

Off-policy reinforcement learning algorithms promise to be applicable in settings where only a fixed data-set (batch) of environment interactions is available and no new experience can be acquired. This property makes these algorithms appealing for real world problems such as robot control. In practice, however, standard off-policy algorithms fail in the batch setting for continuous control. In this paper, we propose a simple solution to this problem. It admits the use of data generated by arbitrary behavior policies and uses a learned prior -- the advantage-weighted behavior model (ABM) -- to bias the RL policy towards actions that have previously been executed and are likely to be successful on the new task. Our method can be seen as an extension of recent work on batch-RL that enables stable learning from conflicting data-sources. We find improvements on competitive baselines in a variety of RL tasks -- including standard continuous control benchmarks and multi-task learning for simulated and real-world robots.

研究动机与目标

解决标准离策略强化学习算法在连续控制的离线（批量）设置下的不稳定性问题。
实现在无新环境交互情况下，从任意行为策略中稳定学习。
开发一种方法，利用历史数据引导策略学习朝向高性能动作，而无需了解行为策略知识。
仅使用固定数据集，在多任务和真实世界机器人学习场景中提升样本效率与性能。

提出的方法

学习一个行为模型，基于过去成功程度估计动作的可能性，使用优势加权机制优先考虑高性能动作。
将ABM作为先验嵌入策略优化目标，引导学习过程偏向数据集中曾成功的行为。
结合ABM先验使用离策略强化学习算法，实现在固定数据集上无需在线交互的稳定训练。
通过根据历史表现而非原始频率对动作加权，使方法能够处理冲突的数据源。
使用数据集轨迹训练ABM，以建模行为先验，而无需环境滚动仿真。
将ABM先验与标准离线强化学习算法（如SAC或TD3）结合，以提升样本效率与最终性能。

实验结果

研究问题

RQ1学习到的行为先验是否能提升离线强化学习在连续控制任务中的稳定性和性能？
RQ2当数据集包含多样化或冲突的行为策略时，ABM先验与现有离线强化学习方法相比表现如何？
RQ3ABM先验在多任务和真实世界机器人控制设置中具有多大程度的泛化能力？
RQ4ABM中的优势加权机制是否能有效识别并优先选择固定数据集中高绩效动作？

主要发现

所提方法在标准连续控制基准任务（如MuJoCo环境）上持续优于竞争性基线模型。
ABM先验即使在数据集包含冲突或次优行为策略时，也能实现稳定学习。
该方法在涉及仿真和真实世界机器人的多任务学习场景中表现出色。
优势加权行为模型能有效识别并优先选择在新任务中可能成功的行为。
该方法无需额外环境交互或行为克隆预训练，即可提升最终策略性能。
该方法在多样化数据分布上具有泛化能力，对数据集中行为策略的差异表现出强鲁棒性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。