Skip to main content
QUICK REVIEW

[论文解读] Off-Policy Deep Reinforcement Learning without Exploration

Scott Fujimoto, David Meger|arXiv (Cornell University)|Dec 7, 2018
Reinforcement Learning in Robotics参考文献 70被引用 279
一句话总结

论文将外推误差识别为从固定批量数据学习的障碍,且提出 BCQ,一种批量约束的 DRL 算法,通过生成与批次相似的动作并选择高价值动作来在不与环境交互的情况下有效学习。

ABSTRACT

Many practical applications of reinforcement learning constrain agents to learn from a fixed batch of data which has already been gathered, without offering further possibility for data collection. In this paper, we demonstrate that due to errors introduced by extrapolation, standard off-policy deep reinforcement learning algorithms, such as DQN and DDPG, are incapable of learning with data uncorrelated to the distribution under the current policy, making them ineffective for this fixed batch setting. We introduce a novel class of off-policy algorithms, batch-constrained reinforcement learning, which restricts the action space in order to force the agent towards behaving close to on-policy with respect to a subset of the given data. We present the first continuous control deep reinforcement learning algorithm which can learn effectively from arbitrary, fixed batch data, and empirically demonstrate the quality of its behavior in several tasks.

研究动机与目标

  • 将批量强化学习作为一种实际场景来激励,在该场景中数据收集代价高昂或具有风险。
  • 将外推误差表征为从固定数据进行真实离策略学习的核心障碍。
  • 提出批量约束强化学习,以使学习到的策略与数据分布对齐。
  • 引入 BCQ,以在连续控制任务中从任意固定批量数据学习。

提出的方法

  • 定义批量约束策略,以最小化策略动作与批量数据之间的不匹配。
  • 将以状态为条件的生成模型与 Q 网络相结合来选择与批次相似的动作,从而提出 BCQ。
  • 使用扰动模型在有界范围内对候选动作进行多样化。
  • 采用带权最小值的裁剪双 Q 学习以惩罚不确定的未来状态。
  • 给出理论结果,表明在批量一致性下确定性 MDP 中外推误差可以被消除。
  • 提供一个实际的深度强化学习实现(BCQ),使用基于 VAE 的生成器和动作扰动。

实验结果

研究问题

  • RQ1通过将策略限制在批次分布内,是否可以使从固定批量数据的离策略学习变得更可靠?
  • RQ2如何在不探索的情况下,联立学习批量动作的生成模型和价值函数以最大化回报?
  • RQ3与标准离策略方法相比,批量约束方法是否在连续控制任务中提高了稳定性和性能?
  • RQ4在什么条件下,批量约束学习可以保证在批量内进行无偏的价值估计或策略改进?
  • RQ5相比传统模仿学习与强化学习基线,BCQ 在不完美演示或专家演示下的表现如何?

主要发现

  • 在批量设置下,BCQ 在多个 MuJoCo 任务中与行为策略相匹配或表现优于它们。
  • BCQ 的价值估计保持稳定,与在批量学习下发散的 DDPG 和 DQN 不同。
  • BCQ 能在无需进一步环境交互的情况下有效利用专家和次优批量数据。
  • 在不完美的演示中,BCQ 通过区分低劣动作与专家动作,优于深度 RL 与模仿基线。
  • 单一一组超参数就能跨任务工作,展示了 BCQ 的鲁棒性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。