Skip to main content
QUICK REVIEW

[论文解读] The Mirage of Action-Dependent Baselines in Reinforcement Learning

George Tucker, Surya Bhupatiraju|arXiv (Cornell University)|Feb 27, 2018
Reinforcement Learning in Robotics参考文献 36被引用 45
一句话总结

论文将策略梯度方差分解,并显示学习到的状态-动作相关基线在常见基准上并不能显著比状态相关基线降低方差,从而揭示实现引入的偏差,并提出把控期 horizon-focused 的价值函数作为一种实用改进。

ABSTRACT

Policy gradient methods are a widely used class of model-free reinforcement learning algorithms where a state-dependent baseline is used to reduce gradient estimator variance. Several recent papers extend the baseline to depend on both the state and action and suggest that this significantly reduces variance and improves sample efficiency without introducing bias into the gradient estimates. To better understand this development, we decompose the variance of the policy gradient estimator and numerically show that learned state-action-dependent baselines do not in fact reduce variance over a state-dependent baseline in commonly tested benchmark domains. We confirm this unexpected result by reviewing the open-source code accompanying these prior papers, and show that subtle implementation decisions cause deviations from the methods presented in the papers and explain the source of the previously observed empirical gains. Furthermore, the variance decomposition highlights areas for improvement, which we demonstrate by illustrating a simple change to the typical value function parameterization that can significantly improve performance.

研究动机与目标

  • 推动对策略梯度方法中状态-动作相关基线在方差降低方面的精确理解。
  • 将策略梯度方差分解,以识别在哪些情形下方差降低在现实中可实现。
  • 在合成任务和基准任务上评估方差分量,以评估状态-动作相关基线的实际收益。

提出的方法

  • 给出带有状态-动作相关基线的策略梯度估计量的方差分解(Eq. 2 与 Eq. 3)。
  • 分析方差项 Sigma_tau、Sigma_a 和 Sigma_s,并识别在何种条件下 Sigma_a 会有显著影响。
  • 在 LQG 和连续控制任务上,使用 oracle 和学习到的基线对方差分量进行经验测量。
  • 回顾开源实现,以识别引入偏差的实现细节。
  • 提出具备 horizon-awareness 的价值函数参数化,以更好地匹配有限时域任务。

实验结果

研究问题

  • RQ1在基准任务中,学习到的状态-动作相关基线是否比状态相关基线更能降低策略梯度方差?
  • RQ2在不同任务和估计量中,方差分量(Sigma_tau、Sigma_a、Sigma_s)的相对大小是多少?
  • RQ3实现细节和价值函数逼近如何影响行动相关基线的观察收益?
  • RQ4具备 horizon-awareness 的价值函数是否能在不引入梯度偏差的前提下提供实用改进?

主要发现

  • 在测试任务中,学习到的状态-动作相关基线并未显著比学习到的状态相关基线降低方差。
  • 状态-动作相关基线降低的方差往往被价值函数近似器和基线本身的方差主导。
  • 一些来自状态-动作相关基线的报告收益来自引入偏差的实现选择,而非无偏方差降低。
  • 在典型基准中,V(s) 与 phi(s,a) 的函数逼近差距对方差的贡献通常大于基线的动作相关性。
  • 实验中,具备 horizon-awareness 的价值函数参数化相对于基线显示出性能提升。
  • 在现有方法下,改进价值函数逼近比采用动作相关基线在方差降低上更具前景。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。