[论文解读] Critic Regularized Regression
CRR 是一种离线强化学习算法,它使用学习到的评估器筛选行动,以引导策略学习自固定数据集,在各类高维任务上优于若干最先进的离线RL方法。
Offline reinforcement learning (RL), also known as batch RL, offers the prospect of policy optimization from large pre-recorded datasets without online environment interaction. It addresses challenges with regard to the cost of data collection and safety, both of which are particularly pertinent to real-world applications of RL. Unfortunately, most off-policy algorithms perform poorly when learning from a fixed dataset. In this paper, we propose a novel offline RL algorithm to learn policies from data using a form of critic-regularized regression (CRR). We find that CRR performs surprisingly well and scales to tasks with high-dimensional state and action spaces -- outperforming several state-of-the-art offline RL algorithms by a significant margin on a wide range of benchmark tasks.
研究动机与目标
- 通过固定的离线数据集来激发策略学习,以解决数据收集成本和安全性问题。
- 开发一种简单、可实现的离线RL方法,使其与标准的 actor-critic 框架兼容。
- 通过用学习到的评估器过滤行动来缓解外推和过估计问题。
- 证明 CRR 能扩展到高维状态和动作空间以及多样化数据质量。
提出的方法
- 将策略学习表述为一个经评估器筛选的回归问题,其中策略在数据动作上训练,使其 Q 值不被当前策略超越。
- 使用分布式 Q 函数和一个随 Q 增加的非负筛选器 f,将策略更新限制在数据支持的行动上。
- 探索不同的筛选函数 f,包括基于估计优势的二元权重和指数权重。
- 使用深度网络、目标网络和分布式评估器实现 CRR,以稳定训练。
- 引入 Critic Weighted Policy (CWP) 以在测试时通过用 Q 值重新加权行动来改善行动选择。
- 提供 CRR 更新的算法过程(Algorithm 1),并讨论指数加权(Eq. 4)相对于简单的 BC 风格筛选的优势。
实验结果
研究问题
- RQ1CRR 能否有效将策略更新限制在离线数据集的支持上,以避免离线RL中的糟糕 Q 估计?
- RQ2不同的优势估计量和筛选函数如何影响离线RL中的性能?
- RQ3CRR 是否能扩展到高维状态和动作空间以及多样化数据质量?
- RQ4与标准 CRR 相比,Critic Weighted Policy (CWP) 对测试时性能有何影响?
主要发现
- CRR 在广泛的基准任务上优于多种最先进的离线RL算法。
- CRR 能扩展到高维状态和动作空间,并处理多样化或低质量数据的数据集。
- 不同的 CRR 变体(exp、binary、binary max)在各类任务上表现稳健,某些变体在简单域与更难域中表现出色。
- 在跨领域的测试时,CWP 通常提升 CRR 的性能。
- CRR 在具有挑战性的操控和运动任务上,常常超过 D4PG、BCQ、ABM 和行为克隆。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。