QUICK REVIEW

[论文解读] Critic Regularized Regression

Ziyu Wang, Alexander Novikov|arXiv (Cornell University)|Jun 26, 2020

Reinforcement Learning in Robotics参考文献 34被引用 90

一句话总结

CRR 是一种离线强化学习算法，它使用学习到的评估器筛选行动，以引导策略学习自固定数据集，在各类高维任务上优于若干最先进的离线RL方法。

ABSTRACT

Offline reinforcement learning (RL), also known as batch RL, offers the prospect of policy optimization from large pre-recorded datasets without online environment interaction. It addresses challenges with regard to the cost of data collection and safety, both of which are particularly pertinent to real-world applications of RL. Unfortunately, most off-policy algorithms perform poorly when learning from a fixed dataset. In this paper, we propose a novel offline RL algorithm to learn policies from data using a form of critic-regularized regression (CRR). We find that CRR performs surprisingly well and scales to tasks with high-dimensional state and action spaces -- outperforming several state-of-the-art offline RL algorithms by a significant margin on a wide range of benchmark tasks.

研究动机与目标

通过固定的离线数据集来激发策略学习，以解决数据收集成本和安全性问题。
开发一种简单、可实现的离线RL方法，使其与标准的 actor-critic 框架兼容。
通过用学习到的评估器过滤行动来缓解外推和过估计问题。
证明 CRR 能扩展到高维状态和动作空间以及多样化数据质量。

提出的方法

将策略学习表述为一个经评估器筛选的回归问题，其中策略在数据动作上训练，使其 Q 值不被当前策略超越。
使用分布式 Q 函数和一个随 Q 增加的非负筛选器 f，将策略更新限制在数据支持的行动上。
探索不同的筛选函数 f，包括基于估计优势的二元权重和指数权重。
使用深度网络、目标网络和分布式评估器实现 CRR，以稳定训练。
引入 Critic Weighted Policy (CWP) 以在测试时通过用 Q 值重新加权行动来改善行动选择。
提供 CRR 更新的算法过程（Algorithm 1），并讨论指数加权（Eq. 4）相对于简单的 BC 风格筛选的优势。

实验结果

研究问题

RQ1CRR 能否有效将策略更新限制在离线数据集的支持上，以避免离线RL中的糟糕 Q 估计？
RQ2不同的优势估计量和筛选函数如何影响离线RL中的性能？
RQ3CRR 是否能扩展到高维状态和动作空间以及多样化数据质量？
RQ4与标准 CRR 相比，Critic Weighted Policy (CWP) 对测试时性能有何影响？

主要发现

CRR 在广泛的基准任务上优于多种最先进的离线RL算法。
CRR 能扩展到高维状态和动作空间，并处理多样化或低质量数据的数据集。
不同的 CRR 变体（exp、binary、binary max）在各类任务上表现稳健，某些变体在简单域与更难域中表现出色。
在跨领域的测试时，CWP 通常提升 CRR 的性能。
CRR 在具有挑战性的操控和运动任务上，常常超过 D4PG、BCQ、ABM 和行为克隆。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。