QUICK REVIEW

[论文解读] Variance Adjusted Actor Critic Algorithms

Aviv Tamar, Shie Mannor|arXiv (Cornell University)|Oct 14, 2013

Reinforcement Learning in Robotics参考文献 13被引用 25

一句话总结

本文提出了一种用于马尔可夫决策过程的方差调整型演员-评论家算法，用于优化结合了期望回报与方差惩罚的风险敏感目标。通过将相容特征扩展至方差调整设置，并使用线性函数逼近评论家，该方法仅使用每次梯度估计的一个轨迹，即可确保几乎必然收敛至真实目标的局部最优解。

ABSTRACT

We present an actor-critic framework for MDPs where the objective is the variance-adjusted expected return. Our critic uses linear function approximation, and we extend the concept of compatible features to the variance-adjusted setting. We present an episodic actor-critic algorithm and show that it converges almost surely to a locally optimal point of the objective function.

研究动机与目标

开发一种演员-评论家框架，用于优化风险敏感强化学习中的方差调整目标 $J - \mu V$。
将相容特征的概念扩展至方差调整设置，以实现高效的策略梯度估计。
解决先前方法依赖同时扰动或在函数逼近中存在近似误差的局限性。
在使用线性函数逼近的条件下，确保收敛至真实目标函数的局部最优解。
通过将线性函数逼近整合至方差惩罚型演员-评论家框架，实现大规模状态空间中的实际应用。

提出的方法

评论家使用线性函数逼近来估计期望回报剩余 $J^\theta(x)$ 及其二阶矩 $M^\theta(x)$，由此推导出方差 $V^\theta(x)$。
通过扩展的策略梯度定理推导策略梯度，该定理将方差调整目标的梯度与 $J^\theta$ 和 $M^\theta$ 相对于策略参数的导数联系起来。
该方法提出一种专为方差调整目标设计的新形式相容特征，确保评论家的值估计与策略梯度方向一致。
算法在每次更新中仅使用一条轨迹计算目标的梯度，避免了同时扰动方法中所需的多条轨迹。
通过涉及转移矩阵 $P$、奖励函数 $r$ 和策略导数 $\partial \log \pi / \partial \theta_j$ 的递归分解，计算 $M^\theta$ 的梯度，从而利用矩阵求逆得到闭式表达式。
最终的梯度估计表达为 $\mathbb{E}\left[\sum_{t=0}^{\infty} \frac{d}{d\theta_j} \log \pi(u_t|x_t) \left( M^\theta(x_t,u_t) + 2J^\theta(x_t,u_t) \sum_{s=0}^{t-1} r(x_s) \right) \right]$，实现高效的在线策略学习。

实验结果

研究问题

RQ1能否设计一种方差调整型演员-评论家算法，在线性函数逼近下确保收敛至真实目标函数的局部最优解？
RQ2如何将相容特征的概念扩展至方差调整设置，以确保值函数逼近的一致性？
RQ3能否仅使用一条轨迹估计方差调整目标的策略梯度，从而避免同时扰动方法中所需的多次轨迹 rollout？
RQ4此类算法的理论收敛保证是什么？其依赖于函数逼近特征的选择如何？
RQ5如何高效计算并利用策略参数的二阶矩 $M^\theta$ 的导数，以实现策略改进？

主要发现

所提出的回合制演员-评论家算法在标准假设下，几乎必然收敛至方差调整目标函数 $J - \mu V$ 的局部最优解。
该方法保证收敛至真实目标的局部最优解，避免了因函数逼近误差导致收敛至修改后目标的局部最优的问题。
该算法每次梯度估计仅需一条轨迹，相比需要两条轨迹进行梯度估计的方法，显著提升了样本效率。
方差调整目标的策略梯度推导基于对策略梯度定理的创新性扩展，该扩展引入了回报的二阶矩。
在方差调整设置中使用相容特征，确保评论家的值估计与策略梯度方向一致，从而提升学习稳定性。
理论分析确认梯度估计无偏，且在策略梯度和奖励有界假设下，算法保持收敛性。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。