Skip to main content
QUICK REVIEW

[论文解读] Learning continuous control policies by stochastic value gradients

Nicolas Heess, Greg Wayne|arXiv (Cornell University)|Dec 7, 2015
Reinforcement Learning in Robotics参考文献 31被引用 286
一句话总结

本文提出了一种通过随机价值梯度学习连续控制策略的统一框架,将贝尔曼方程中的随机性视为外生噪声的确定性函数。通过实现模型、价值函数和策略的端到端反向传播,该方法在仿真环境中实现了最先进性能,其中SVG(1)展示了在连续控制任务中有效联合学习动力学模型、价值函数和策略的能力。

ABSTRACT

We present a unified framework for learning continuous control policies using backpropagation. It supports stochastic control by treating stochasticity in the Bellman equation as a deterministic function of exogenous noise. The product is a spectrum of general policy gradient algorithms that range from model-free methods with value functions to model-based methods without value functions. We use learned models but only require observations from the environment instead of observations from model-predicted trajectories, minimizing the impact of compounded model errors. We apply these algorithms first to a toy stochastic control problem and then to several physics-based control problems in simulation. One of these variants, SVG(1), shows the effectiveness of learning models, value functions, and policies simultaneously in continuous domains.

研究动机与目标

  • 通过单一可微分框架统一模型无关与基于模型的强化学习。
  • 通过使用真实环境观测而非模型预测轨迹来学习,解决基于模型的强化学习中的误差累积问题。
  • 实现通过随机策略、价值函数和学习到的动力学模型的端到端反向传播。
  • 开发一种可扩展且高效的连续控制算法,结合基于值方法和基于模型方法的优势。

提出的方法

  • 将贝尔曼方程中的随机性视为外生噪声的确定性函数,从而实现通过随机策略的反向传播。
  • 使用学习到的环境模型预测状态转移,但使用真实观测进行训练,而非模型生成的轨迹。
  • 提出一种随机价值梯度,通过反向传播实现策略、价值函数和模型参数的联合优化。
  • 将该框架应用于模型无关和基于模型的设置,采用统一的算法结构。
  • 使用重参数化技巧实现通过随机动作的梯度估计,确保可微性。
  • 提出SVG(1),一种变体,可在单一端到端训练过程中联合学习动力学模型、价值函数和策略。

实验结果

研究问题

  • RQ1统一框架能否在连续控制中有效结合基于模型和模型无关的强化学习?
  • RQ2在可微分强化学习框架中,如何高效处理策略中的随机性?
  • RQ3联合学习动力学模型、价值函数和策略能否减轻连续控制中模型误差的影响?
  • RQ4通过反向传播对所有组件进行端到端训练能带来多大的性能提升?
  • RQ5在复杂控制任务中,该方法与现有模型无关和基于模型的方法相比表现如何?

主要发现

  • 所提出的框架通过反向传播实现了策略、价值函数和动力学模型的端到端训练,实现了稳定且高效的训练。
  • 通过使用真实环境观测而非模型预测轨迹,该方法最小化了模型误差的累积效应。
  • SVG(1)作为该框架的变体,在连续控制任务中表现出色,证明了联合学习的有效性。
  • 该方法成功地在单一统一的算法结构中支持了模型无关和基于模型的学习。
  • 该方法在仿真环境中表现出鲁棒性和可扩展性,包括基于物理的控制问题。
  • 该框架通过外生噪声对随机策略实现可微处理,促进了基于梯度的优化。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。