QUICK REVIEW

[论文解读] Benchmarking Model-Based Reinforcement Learning

Tingwu Wang, Xuchan Bao|arXiv (Cornell University)|Jul 3, 2019

Reinforcement Learning in Robotics参考文献 43被引用 242

一句话总结

对11个 MBRL 算法和4个 MFRL 基线在18个 OpenAI Gym 类环境中的全面基准测试，分析性能、对噪声的鲁棒性，以及模型基于强化学习中的三个瓶颈。

ABSTRACT

Model-based reinforcement learning (MBRL) is widely seen as having the potential to be significantly more sample efficient than model-free RL. However, research in model-based RL has not been very standardized. It is fairly common for authors to experiment with self-designed environments, and there are several separate lines of research, which are sometimes closed-sourced or not reproducible. Accordingly, it is an open question how these various existing MBRL algorithms perform relative to each other. To facilitate research in MBRL, in this paper we gather a wide collection of MBRL algorithms and propose over 18 benchmarking environments specially designed for MBRL. We benchmark these algorithms with unified problem settings, including noisy environments. Beyond cataloguing performance, we explore and unify the underlying algorithmic differences across MBRL algorithms. We characterize three key research challenges for future MBRL research: the dynamics bottleneck, the planning horizon dilemma, and the early-termination dilemma. Finally, to maximally facilitate future research on MBRL, we open-source our benchmark in http://www.cs.toronto.edu/~tingwuwang/mbrl.html.

研究动机与目标

在标准化、共享的基准下，评估当代 MBRL 算法相对于无模型强化学习基线的相对性能。
评估 MBRL 方法对观测噪声和动作噪声的鲁棒性。
识别并描述限制 MBRL 进展的核心挑战（动力学瓶颈、规划时界、提前结束）。
提供开源基准资源以实现可重复性和公平比较。

提出的方法

汇集一组多样化的11个 MBRL 算法和4个 MFRL 基线。
基于 OpenAI Gym 标准化环境（18 个任务）和问题设置（包括噪声）；为某些方法修改奖励以确保可微分性。
在200k时间步（部分方法为1M时间步）、四个随机种子下评估性能，并对每个算法使用网格搜索超参数。
通过高斯扰动分析对观测和动作噪声的鲁棒性。
通过实证测量研究三个假设驱动的瓶颈（动力学瓶颈、规划时界、提前终止）。
提供一个开源的基准平台和文档以实现可重复性。

实验结果

研究问题

RQ1在一系列环境难度下，现有的 MBRL 方法如何彼此比较以及与标准 MFRL 基线相比？
RQ2MBRL 方法对观测和动作噪声是否鲁棒？这种鲁棒性与模型无关基线相比如何？
RQ3限制 MBRL 性能的主要因素是什么？它们是否表现为动力学瓶颈、规划时界问题或提前终止困境？
RQ4标准化基准和开源代码是否能加速 MBRL 的进展与可重复性？

主要发现

没有单一的 MBRL 方法在所有环境中占据优势；性能随任务难度和环境特征而变化。
Shooting 和 Dyna 风格的 MBRL 方法在简单任务上通常表现出色，而在复杂高维任务中，与模型无关方法和真实动力学相比仍存在差距。
对观测和动作噪声的鲁棒性存在差异；一些 Dyna 风格的方法表现出韧性，而另一些在噪声下下降更明显。
识别出三个持续存在的瓶颈：动力学瓶颈（学习到的动力学在更多数据下趋于平台期）、规划时界困境（更长的时界可能由于维度诅咒和模型误差而降低性能）、提前终止困境（过早终止往往损害 MBRL 的性能）。
真实动力学通常能带来更高的性能，但并非总能扩展；当动力学被学习时，在若干任务中性能在低于模型无关基线和完全真实基线的水平上达到平台期。
本研究强调不确定性建模、集成与鲁棒的规划模块的重要性，以降低模型偏差和外推误差。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。