QUICK REVIEW

[论文解读] Reinforcement Learning in POMDP's via Direct Gradient Ascent

Jonathan Baxter, Peter L. Bartlett|ArXiv.org|Dec 2, 2025

Reinforcement Learning in Robotics参考文献 27被引用 88

一句话总结

本文提出 GPOMDP，一种用于 POMDP 的平均奖励的 REINFORCE 风格梯度估计器，利用单个样本路径；并提出 CONJPOMDP 进行基于梯度的优化，并在一个玩具实验中展示收敛性与对梯度估计的偏差-方差权衡。

ABSTRACT

This paper discusses theoretical and experimental aspects of gradient-based approaches to the direct optimization of policy performance in controlled POMDPs. We introduce GPOMDP, a REINFORCE-like algorithm for estimating an approximation to the gradient of the average reward as a function of the parameters of a stochastic policy. The algorithm's chief advantages are that it requires only a single sample path of the underlying Markov chain, it uses only one free parameter $β\in [0,1)$, which has a natural interpretation in terms of bias-variance trade-off, and it requires no knowledge of the underlying state. We prove convergence of GPOMDP and show how the gradient estimates produced by GPOMDP can be used in a conjugate-gradient procedure to find local optima of the average reward.

研究动机与目标

在部分可观测环境（POMDPs）中动机化并研究对策略表现进行梯度直接优化的目标。
开发一个实际可用的梯度估计器，只需要最少的状态信息和单条样本路径。
提供一个共轭梯度优化过程，用于在平均奖励上找到局部最优解。
确立所提出方法的收敛特性，并通过实验进行验证。

提出的方法

将目标定义为最大化对参数化随机策略在 POMDP 中的长期平均奖励 η(θ)。
推导 η(θ) 的梯度分解，通过折现值 Jβ 与极限梯度 ∇βη 得到可处理的估计量。
引入 GPOMDP，一种从单一轨迹通过对 zt 的递归和在线平均 Δt 来估计 ∇βη(θ) 的算法，β∈[0,1)。
证明 ∇βη(θ) 当 β→1 时收敛于 ∇η(θ)，并将偏差与马尔可夫链混合时间 τ* 联系起来。
提出 CONJPOMDP，一种共轭梯度优化方法，使用梯度估计（有噪声或有偏）来最大化 η，包括仅利用梯度信息的 GSEARCH 线搜索来括定最大值。
描述一个三状态 MDP 的 toy 实验，展示 GPOMDP 的梯度估计、偏差-方差权衡以及策略训练。

实验结果

研究问题

RQ1我们是否能仅使用单条样本路径，在 POMDP 中估计相对于策略参数的平均奖励梯度？
RQ2β 对 GPOMDP 的梯度估计偏差与方差之间如何权衡？
RQ3是否能通过 GPOMDP 与 CONJPOMDP 的结合，利用梯度优化在 POMDP 中找到局部最优策略？
RQ4在一个简易的玩具 POMDP 中应用 GPOMDP 与 CONJPOMDP 时，会出现何种偏差-方差权衡与收敛性行为？

主要发现

GPOMDP 提供了一种对平均奖励的 REINFORCE 风格梯度估计，只需要一个单样本路径并可存储 2K 个数（K 为策略参数数量）。
当 β→1 时，梯度估计 ∇βη 收敛于 ∇η，偏差界随马尔可夫链的混合时间 τ* 耦合。
存在由 β 控制的根本性偏差-方差权衡：β 越大，偏差越小但方差越大；β 越小，方差越小但偏差越大。
CONJPOMDP 使用基于梯度的线搜索来稳健地优化带噪声的梯度估计，避免对精确值估计的依赖。
在一个玩具的 3 状态 MDP 实验中，GPOMDP/CONJPOMDP 的训练实现了接近最优的性能，展示了直接策略优化方法的可行性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。