Skip to main content
QUICK REVIEW

[论文解读] Behavior Proximal Policy Optimization

Zifeng Zhuang, Kun Lei|arXiv (Cornell University)|Feb 22, 2023
Reinforcement Learning in Robotics被引用 8
一句话总结

BPPO 表明离线强化学习可以通过一个简单的基于策略梯度的 PPO 风格方法来解决,不需要额外约束,通过对离线数据持续改进行为策略,在 D4RL 上取得强劲结果。

ABSTRACT

Offline reinforcement learning (RL) is a challenging setting where existing off-policy actor-critic methods perform poorly due to the overestimation of out-of-distribution state-action pairs. Thus, various additional augmentations are proposed to keep the learned policy close to the offline dataset (or the behavior policy). In this work, starting from the analysis of offline monotonic policy improvement, we get a surprising finding that some online on-policy algorithms are naturally able to solve offline RL. Specifically, the inherent conservatism of these on-policy algorithms is exactly what the offline RL method needs to overcome the overestimation. Based on this, we propose Behavior Proximal Policy Optimization (BPPO), which solves offline RL without any extra constraint or regularization introduced compared to PPO. Extensive experiments on the D4RL benchmark indicate this extremely succinct method outperforms state-of-the-art offline RL algorithms. Our implementation is available at https://github.com/Dragon-Zhuang/BPPO.

研究动机与目标

  • 将离线 RL 定义为对行为策略在离线数据上的单调改进。
  • 展示在线的基于策略算法(如 PPO)可以自然地解决离线 RL 而无需额外约束。
  • 提出 BPPO,这是一个简单的离线算法,模仿 PPO 的同时依赖离线数据。
  • 在 Gym、Adroit、Kitchen、Antmaze 等 D4RL 基准测试上展示强劲的经验性能。

提出的方法

  • 用 Performance Difference 定理 Formulate 离线单调策略改进。
  • 推导一个实用的 BPPO 目标,使之模仿 PPO,但将在线状态分布替换为离线数据分布。
  • 在更新策略与当前策略之间施加 divergence 约束,以确保单调改进,通过裁剪代理损失实现。
  • 使用重要性抽样对离线数据基础的优势进行再加权,使之符合当前策略。
  • 结合离策略 Q 与 V 的估计(与行为策略绑定),近似并计算优势 A_pi_k。
  • 引入裁剪比率衰减,使学习得到的策略与行为策略保持联系,同时允许受控更新。

实验结果

研究问题

  • RQ1在线的基于策略算法是否可以在没有显式正则化的情况下实现离线 RL 的单调改进?
  • RQ2类似 PPO 的 BPPO 方法在标准离线 RL 基准测试中是否具有优越或竞争性能?
  • RQ3BPPO 相对于单步和迭代/非在线的离线方法在实践中的比较如何?
  • RQ4哪些实现选择(优势估计、裁剪调度)会影响 BPPO 在离线设置中的有效性?

主要发现

  • BPPO 在 D4RL 基准测试上与最先进的离线 RL 方法相比具有竞争力或更优的性能。
  • BPPO 相较于 Behavior Cloning 基线有显著改进,在 Adroit 和 Kitchen 任务上表现出色。
  • 经验结果表明 BPPO 在多任务中常常优于 Onestep RL,并且在某些任务上与迭代/非在线方法相比具有竞争力甚至更好。
  • 在离线数据中通过类似 PPO 的损失引入单调改进,取得强劲表现且无需超出 PPO 中的额外正则化项。
  • 裁剪比率衰减和对优势估计的仔细处理对 BPPO 的稳定性表现重要。
  • BPPO 在稀疏奖励任务如 Antmaze 上显示出色表现,优于若干基线。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。