Skip to main content
QUICK REVIEW

[论文解读] Reinforcement Learning in POMDP's via Direct Gradient Ascent

Jonathan Baxter, Peter L. Bartlett|ArXiv.org|Dec 2, 2025
Reinforcement Learning in Robotics参考文献 27被引用 88
一句话总结

本文提出 GPOMDP,一种用于 POMDP 的平均奖励的 REINFORCE 风格梯度估计器,利用单个样本路径;并提出 CONJPOMDP 进行基于梯度的优化,并在一个玩具实验中展示收敛性与对梯度估计的偏差-方差权衡。

ABSTRACT

This paper discusses theoretical and experimental aspects of gradient-based approaches to the direct optimization of policy performance in controlled POMDPs. We introduce GPOMDP, a REINFORCE-like algorithm for estimating an approximation to the gradient of the average reward as a function of the parameters of a stochastic policy. The algorithm's chief advantages are that it requires only a single sample path of the underlying Markov chain, it uses only one free parameter $β\in [0,1)$, which has a natural interpretation in terms of bias-variance trade-off, and it requires no knowledge of the underlying state. We prove convergence of GPOMDP and show how the gradient estimates produced by GPOMDP can be used in a conjugate-gradient procedure to find local optima of the average reward.

研究动机与目标

  • 在部分可观测环境(POMDPs)中动机化并研究对策略表现进行梯度直接优化的目标。
  • 开发一个实际可用的梯度估计器,只需要最少的状态信息和单条样本路径。
  • 提供一个共轭梯度优化过程,用于在平均奖励上找到局部最优解。
  • 确立所提出方法的收敛特性,并通过实验进行验证。

提出的方法

  • 将目标定义为最大化对参数化随机策略在 POMDP 中的长期平均奖励 η(θ)。
  • 推导 η(θ) 的梯度分解,通过折现值 Jβ 与极限梯度 ∇βη 得到可处理的估计量。
  • 引入 GPOMDP,一种从单一轨迹通过对 zt 的递归和在线平均 Δt 来估计 ∇βη(θ) 的算法,β∈[0,1)。
  • 证明 ∇βη(θ) 当 β→1 时收敛于 ∇η(θ),并将偏差与马尔可夫链混合时间 τ* 联系起来。
  • 提出 CONJPOMDP,一种共轭梯度优化方法,使用梯度估计(有噪声或有偏)来最大化 η,包括仅利用梯度信息的 GSEARCH 线搜索来括定最大值。
  • 描述一个三状态 MDP 的 toy 实验,展示 GPOMDP 的梯度估计、偏差-方差权衡以及策略训练。

实验结果

研究问题

  • RQ1我们是否能仅使用单条样本路径,在 POMDP 中估计相对于策略参数的平均奖励梯度?
  • RQ2β 对 GPOMDP 的梯度估计偏差与方差之间如何权衡?
  • RQ3是否能通过 GPOMDP 与 CONJPOMDP 的结合,利用梯度优化在 POMDP 中找到局部最优策略?
  • RQ4在一个简易的玩具 POMDP 中应用 GPOMDP 与 CONJPOMDP 时,会出现何种偏差-方差权衡与收敛性行为?

主要发现

  • GPOMDP 提供了一种对平均奖励的 REINFORCE 风格梯度估计,只需要一个单样本路径并可存储 2K 个数(K 为策略参数数量)。
  • 当 β→1 时,梯度估计 ∇βη 收敛于 ∇η,偏差界随马尔可夫链的混合时间 τ* 耦合。
  • 存在由 β 控制的根本性偏差-方差权衡:β 越大,偏差越小但方差越大;β 越小,方差越小但偏差越大。
  • CONJPOMDP 使用基于梯度的线搜索来稳健地优化带噪声的梯度估计,避免对精确值估计的依赖。
  • 在一个玩具的 3 状态 MDP 实验中,GPOMDP/CONJPOMDP 的训练实现了接近最优的性能,展示了直接策略优化方法的可行性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。