Skip to main content
QUICK REVIEW

[论文解读] Wasserstein Robust Reinforcement Learning

Mohammed Amin Abdullah, Hang Ren|arXiv (Cornell University)|Jul 30, 2019
Reinforcement Learning in Robotics参考文献 46被引用 37
一句话总结

WR2L 将鲁棒强化学习表述为在参考动力学周围带有 epsilon-Wasserstein 约束的最小–最大博弈,并为高维连续任务提供可扩展的零阶求解器。

ABSTRACT

Reinforcement learning algorithms, though successful, tend to over-fit to training environments hampering their application to the real-world. This paper proposes $ ext{W} ext{R}^{2} ext{L}$ -- a robust reinforcement learning algorithm with significant robust performance on low and high-dimensional control tasks. Our method formalises robust reinforcement learning as a novel min-max game with a Wasserstein constraint for a correct and convergent solver. Apart from the formulation, we also propose an efficient and scalable solver following a novel zero-order optimisation method that we believe can be useful to numerical optimisation in general. We empirically demonstrate significant gains compared to standard and robust state-of-the-art algorithms on high-dimensional MuJuCo environments.

研究动机与目标

  • 在转移动力学变化时激发 RL 的鲁棒性以提升泛化能力。
  • 将 WR2L 作为带有 Wasserstein 约束的通用 min–max 框架介绍。
  • 在连续状态-行动空间中实现鲁棒性,无需手工设计的干扰模型。
  • 提供一个在更新动力学和策略之间交替进行的可扩展求解器。

提出的方法

  • 将鲁棒 RL 目标定义为 max_theta min_phi E_tau~p_theta^phi[R_total(tau)].
  • 将允许的转移扰动约束在围绕参考动力学 P0 的 epsilon-Wasserstein 球内。
  • 对策略 pi_theta 和扰动动力学 phi 进行参数化;通过交替优化求解。
  • 使用平均 Wasserstein 约束(而非逐点约束)以使约束可行。
  • 开发基于二阶泰勒展开的 Hessian 近似,以在约束内高效更新 phi。
  • 给出在无法获得梯度时更新动力学的零阶(无梯度)方法。

实验结果

研究问题

  • RQ1我们如何将鲁棒 RL 表述为处理连续状态-动作空间中的模型扰动?
  • RQ2Wasserstein 距离是否可以为 RL 转移提供一个原理性、几何感知的鲁棒性约束?
  • RQ3是否有可能在没有显式动力学模型的情况下高效求解所得的 min–max 问题?
  • RQ4所提出的 WR2L 框架是否在高维控制任务中提升鲁棒性和性能?

主要发现

  • 与标准基线以及某些鲁棒基线相比,WR2L 在高维 MuJoCo 环境上实现显著的鲁棒性能提升。
  • 该算法在统一的 Wasserstein 基础框架内同时适用于离散与连续状态-行动空间。
  • 一种新颖的零阶优化方法使得对转移动力学的可扩展更新在不需要梯度信息的情况下成为可能。
  • 基于 Hessian 的约束近似使在围绕参考动力学的 epsilon-Wasserstein 球内进行可控优化成为可能。
  • 该方法不需要学习完整的动力学模型,利用可微求解器或带参数化动力学的可微模拟器。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。