Skip to main content
QUICK REVIEW

[论文解读] Critic Regularized Regression

Ziyu Wang, Alexander Novikov|arXiv (Cornell University)|Jun 26, 2020
Reinforcement Learning in Robotics参考文献 34被引用 90
一句话总结

CRR 是一种离线强化学习算法,它使用学习到的评估器筛选行动,以引导策略学习自固定数据集,在各类高维任务上优于若干最先进的离线RL方法。

ABSTRACT

Offline reinforcement learning (RL), also known as batch RL, offers the prospect of policy optimization from large pre-recorded datasets without online environment interaction. It addresses challenges with regard to the cost of data collection and safety, both of which are particularly pertinent to real-world applications of RL. Unfortunately, most off-policy algorithms perform poorly when learning from a fixed dataset. In this paper, we propose a novel offline RL algorithm to learn policies from data using a form of critic-regularized regression (CRR). We find that CRR performs surprisingly well and scales to tasks with high-dimensional state and action spaces -- outperforming several state-of-the-art offline RL algorithms by a significant margin on a wide range of benchmark tasks.

研究动机与目标

  • 通过固定的离线数据集来激发策略学习,以解决数据收集成本和安全性问题。
  • 开发一种简单、可实现的离线RL方法,使其与标准的 actor-critic 框架兼容。
  • 通过用学习到的评估器过滤行动来缓解外推和过估计问题。
  • 证明 CRR 能扩展到高维状态和动作空间以及多样化数据质量。

提出的方法

  • 将策略学习表述为一个经评估器筛选的回归问题,其中策略在数据动作上训练,使其 Q 值不被当前策略超越。
  • 使用分布式 Q 函数和一个随 Q 增加的非负筛选器 f,将策略更新限制在数据支持的行动上。
  • 探索不同的筛选函数 f,包括基于估计优势的二元权重和指数权重。
  • 使用深度网络、目标网络和分布式评估器实现 CRR,以稳定训练。
  • 引入 Critic Weighted Policy (CWP) 以在测试时通过用 Q 值重新加权行动来改善行动选择。
  • 提供 CRR 更新的算法过程(Algorithm 1),并讨论指数加权(Eq. 4)相对于简单的 BC 风格筛选的优势。

实验结果

研究问题

  • RQ1CRR 能否有效将策略更新限制在离线数据集的支持上,以避免离线RL中的糟糕 Q 估计?
  • RQ2不同的优势估计量和筛选函数如何影响离线RL中的性能?
  • RQ3CRR 是否能扩展到高维状态和动作空间以及多样化数据质量?
  • RQ4与标准 CRR 相比,Critic Weighted Policy (CWP) 对测试时性能有何影响?

主要发现

  • CRR 在广泛的基准任务上优于多种最先进的离线RL算法。
  • CRR 能扩展到高维状态和动作空间,并处理多样化或低质量数据的数据集。
  • 不同的 CRR 变体(exp、binary、binary max)在各类任务上表现稳健,某些变体在简单域与更难域中表现出色。
  • 在跨领域的测试时,CWP 通常提升 CRR 的性能。
  • CRR 在具有挑战性的操控和运动任务上,常常超过 D4PG、BCQ、ABM 和行为克隆。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。