QUICK REVIEW
[论文解读] Variance Adjusted Actor Critic Algorithms
Aviv Tamar, Shie Mannor|arXiv (Cornell University)|Oct 14, 2013
Reinforcement Learning in Robotics参考文献 13被引用 25
一句话总结
本文提出了一种用于马尔可夫决策过程的方差调整型演员-评论家算法,用于优化结合了期望回报与方差惩罚的风险敏感目标。通过将相容特征扩展至方差调整设置,并使用线性函数逼近评论家,该方法仅使用每次梯度估计的一个轨迹,即可确保几乎必然收敛至真实目标的局部最优解。
ABSTRACT
We present an actor-critic framework for MDPs where the objective is the variance-adjusted expected return. Our critic uses linear function approximation, and we extend the concept of compatible features to the variance-adjusted setting. We present an episodic actor-critic algorithm and show that it converges almost surely to a locally optimal point of the objective function.
研究动机与目标
- 开发一种演员-评论家框架,用于优化风险敏感强化学习中的方差调整目标 $J - \mu V$。
- 将相容特征的概念扩展至方差调整设置,以实现高效的策略梯度估计。
- 解决先前方法依赖同时扰动或在函数逼近中存在近似误差的局限性。
- 在使用线性函数逼近的条件下,确保收敛至真实目标函数的局部最优解。
- 通过将线性函数逼近整合至方差惩罚型演员-评论家框架,实现大规模状态空间中的实际应用。
提出的方法
- 评论家使用线性函数逼近来估计期望回报剩余 $J^\theta(x)$ 及其二阶矩 $M^\theta(x)$,由此推导出方差 $V^\theta(x)$。
- 通过扩展的策略梯度定理推导策略梯度,该定理将方差调整目标的梯度与 $J^\theta$ 和 $M^\theta$ 相对于策略参数的导数联系起来。
- 该方法提出一种专为方差调整目标设计的新形式相容特征,确保评论家的值估计与策略梯度方向一致。
- 算法在每次更新中仅使用一条轨迹计算目标的梯度,避免了同时扰动方法中所需的多条轨迹。
- 通过涉及转移矩阵 $P$、奖励函数 $r$ 和策略导数 $\partial \log \pi / \partial \theta_j$ 的递归分解,计算 $M^\theta$ 的梯度,从而利用矩阵求逆得到闭式表达式。
- 最终的梯度估计表达为 $\mathbb{E}\left[\sum_{t=0}^{\infty} \frac{d}{d\theta_j} \log \pi(u_t|x_t) \left( M^\theta(x_t,u_t) + 2J^\theta(x_t,u_t) \sum_{s=0}^{t-1} r(x_s) \right) \right]$,实现高效的在线策略学习。
实验结果
研究问题
- RQ1能否设计一种方差调整型演员-评论家算法,在线性函数逼近下确保收敛至真实目标函数的局部最优解?
- RQ2如何将相容特征的概念扩展至方差调整设置,以确保值函数逼近的一致性?
- RQ3能否仅使用一条轨迹估计方差调整目标的策略梯度,从而避免同时扰动方法中所需的多次轨迹 rollout?
- RQ4此类算法的理论收敛保证是什么?其依赖于函数逼近特征的选择如何?
- RQ5如何高效计算并利用策略参数的二阶矩 $M^\theta$ 的导数,以实现策略改进?
主要发现
- 所提出的回合制演员-评论家算法在标准假设下,几乎必然收敛至方差调整目标函数 $J - \mu V$ 的局部最优解。
- 该方法保证收敛至真实目标的局部最优解,避免了因函数逼近误差导致收敛至修改后目标的局部最优的问题。
- 该算法每次梯度估计仅需一条轨迹,相比需要两条轨迹进行梯度估计的方法,显著提升了样本效率。
- 方差调整目标的策略梯度推导基于对策略梯度定理的创新性扩展,该扩展引入了回报的二阶矩。
- 在方差调整设置中使用相容特征,确保评论家的值估计与策略梯度方向一致,从而提升学习稳定性。
- 理论分析确认梯度估计无偏,且在策略梯度和奖励有界假设下,算法保持收敛性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。