Skip to main content
QUICK REVIEW

[论文解读] Variance Adjusted Actor Critic Algorithms

Aviv Tamar, Shie Mannor|arXiv (Cornell University)|Oct 14, 2013
Reinforcement Learning in Robotics参考文献 13被引用 25
一句话总结

本文提出了一种用于马尔可夫决策过程的方差调整型演员-评论家算法,用于优化结合了期望回报与方差惩罚的风险敏感目标。通过将相容特征扩展至方差调整设置,并使用线性函数逼近评论家,该方法仅使用每次梯度估计的一个轨迹,即可确保几乎必然收敛至真实目标的局部最优解。

ABSTRACT

We present an actor-critic framework for MDPs where the objective is the variance-adjusted expected return. Our critic uses linear function approximation, and we extend the concept of compatible features to the variance-adjusted setting. We present an episodic actor-critic algorithm and show that it converges almost surely to a locally optimal point of the objective function.

研究动机与目标

  • 开发一种演员-评论家框架,用于优化风险敏感强化学习中的方差调整目标 $J - \mu V$。
  • 将相容特征的概念扩展至方差调整设置,以实现高效的策略梯度估计。
  • 解决先前方法依赖同时扰动或在函数逼近中存在近似误差的局限性。
  • 在使用线性函数逼近的条件下,确保收敛至真实目标函数的局部最优解。
  • 通过将线性函数逼近整合至方差惩罚型演员-评论家框架,实现大规模状态空间中的实际应用。

提出的方法

  • 评论家使用线性函数逼近来估计期望回报剩余 $J^\theta(x)$ 及其二阶矩 $M^\theta(x)$,由此推导出方差 $V^\theta(x)$。
  • 通过扩展的策略梯度定理推导策略梯度,该定理将方差调整目标的梯度与 $J^\theta$ 和 $M^\theta$ 相对于策略参数的导数联系起来。
  • 该方法提出一种专为方差调整目标设计的新形式相容特征,确保评论家的值估计与策略梯度方向一致。
  • 算法在每次更新中仅使用一条轨迹计算目标的梯度,避免了同时扰动方法中所需的多条轨迹。
  • 通过涉及转移矩阵 $P$、奖励函数 $r$ 和策略导数 $\partial \log \pi / \partial \theta_j$ 的递归分解,计算 $M^\theta$ 的梯度,从而利用矩阵求逆得到闭式表达式。
  • 最终的梯度估计表达为 $\mathbb{E}\left[\sum_{t=0}^{\infty} \frac{d}{d\theta_j} \log \pi(u_t|x_t) \left( M^\theta(x_t,u_t) + 2J^\theta(x_t,u_t) \sum_{s=0}^{t-1} r(x_s) \right) \right]$,实现高效的在线策略学习。

实验结果

研究问题

  • RQ1能否设计一种方差调整型演员-评论家算法,在线性函数逼近下确保收敛至真实目标函数的局部最优解?
  • RQ2如何将相容特征的概念扩展至方差调整设置,以确保值函数逼近的一致性?
  • RQ3能否仅使用一条轨迹估计方差调整目标的策略梯度,从而避免同时扰动方法中所需的多次轨迹 rollout?
  • RQ4此类算法的理论收敛保证是什么?其依赖于函数逼近特征的选择如何?
  • RQ5如何高效计算并利用策略参数的二阶矩 $M^\theta$ 的导数,以实现策略改进?

主要发现

  • 所提出的回合制演员-评论家算法在标准假设下,几乎必然收敛至方差调整目标函数 $J - \mu V$ 的局部最优解。
  • 该方法保证收敛至真实目标的局部最优解,避免了因函数逼近误差导致收敛至修改后目标的局部最优的问题。
  • 该算法每次梯度估计仅需一条轨迹,相比需要两条轨迹进行梯度估计的方法,显著提升了样本效率。
  • 方差调整目标的策略梯度推导基于对策略梯度定理的创新性扩展,该扩展引入了回报的二阶矩。
  • 在方差调整设置中使用相容特征,确保评论家的值估计与策略梯度方向一致,从而提升学习稳定性。
  • 理论分析确认梯度估计无偏,且在策略梯度和奖励有界假设下,算法保持收敛性。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。