[论文解读] NeoRL: A Near Real-World Benchmark for Offline Reinforcement Learning
NeoRL 提供近现实世界的离线强化学习基准,覆盖多领域、有限数据的数据集以及额外测试数据,结果表明在这些任务中,确定性行为策略通常能达到与许多离线 RL 方法相当甚至超过的表现。
Offline reinforcement learning (RL) aims at learning a good policy from a batch of collected data, without extra interactions with the environment during training. However, current offline RL benchmarks commonly have a large reality gap, because they involve large datasets collected by highly exploratory policies, and the trained policy is directly evaluated in the environment. In real-world situations, running a highly exploratory policy is prohibited to ensure system safety, the data is commonly very limited, and a trained policy should be well validated before deployment. In this paper, we present a near real-world offline RL benchmark, named NeoRL, which contains datasets from various domains with controlled sizes, and extra test datasets for policy validation. We evaluate existing offline RL algorithms on NeoRL and argue that the performance of a policy should also be compared with the deterministic version of the behavior policy, instead of the dataset reward. The empirical results demonstrate that the tested offline RL algorithms become less competitive to the deterministic policy on many datasets, and the offline policy evaluation hardly helps. The NeoRL suit can be found at http://polixir.ai/research/neorl. We hope this work will shed some light on future research and draw more attention when deploying RL in real-world systems.
研究动机与目标
- 在数据有限、现实世界且注重安全性的场景中,推动离线RL的发展。
- 提供一个覆盖多个领域的统一、近现实世界的基准套件。
- 评估现有的离线RL方法,并将它们与确定性行为策略进行比较。
- 突出在这些现实环境中离线策略评估(OPE)的有限作用。
- 提供数据集和评估协议,以指导可部署的强化学习研究。
提出的方法
- 从多样化领域构建近现实世界的离线RL数据集,数据规模可控,并增加一个额外的测试数据集用于策略验证。
- 生成多层级策略(专家、低/中/高回报),并通过带有噪声的次优策略收集训练数据,以模拟真实世界的数据分布。
- 为每个任务提供统一的API,访问状态、动作、奖励、下一个状态,以及奖励函数接口。
- 将无模型与有模型的离线RL方法在确定性行为策略和专家策略的对比基准下进行评测。
- 使用在线评估进行最终策略排序,离线策略评估(FQE)用于离线模型选择,包括KL约束和扰动机制以保持接近数据覆盖。
实验结果
研究问题
- RQ1在近现实世界的离线基准上,当前的离线RL方法是否优于确定性行为策略的版本?
- RQ2在现实任务中,数据质量与数量如何影响无模型与有模型离线RL方法的相对表现?
- RQ3像FQE这样的离线策略评估方法是否能够在近现实世界数据集中可靠地对策略进行排序并指导模型选择?
- RQ4通过KL惩罚或扰动约束等方式强制接近行为策略对离线RL性能有何影响?
- RQ5不同领域(机器人、工业、金融、城市管理)如何影响离线RL算法的有效性?
主要发现
- BC 往往在 NeoRL 任务中与多数离线RL方法持平或超过,表明来自确定性行为策略的强基线。
- CQL 在大约三分之一的任务中在若干离线方法中表现最佳,但在 MuJoCo 和 IB 环境中相对确定性策略的提升有限。
- 有模型方法如果缺乏适当约束(如KL)可能表现不佳,并可能受到模型滥用的影响,尽管带集成的 MOPO 在某些任务中可以缓解。
- MOPO 在某些任务(如 HalfCheetah 变体)上表现显著改进,但对 rollout 长度和惩罚超参数敏感。
- 使用FQE进行离线模型选择可以对策略排序,但往往未能超过在线评估,凸显离线评估可靠性方面的挑战。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。