Skip to main content
QUICK REVIEW

[论文解读] Stochastic Variance Reduction Methods for Policy Evaluation

Simon S. Du, Jianshu Chen|arXiv (Cornell University)|Feb 25, 2017
Reinforcement Learning in Robotics被引用 69
一句话总结

该论文将经验性的 MSPBE 转换为一个凸-凹鞍点问题,并开发原始-对偶和随机方差化简算法(SVRG 和 SAGA),对于带线性函数逼近的策略评估具有线性收敛。

ABSTRACT

Policy evaluation is a crucial step in many reinforcement-learning procedures, which estimates a value function that predicts states' long-term value under a given policy. In this paper, we focus on policy evaluation with linear function approximation over a fixed dataset. We first transform the empirical policy evaluation problem into a (quadratic) convex-concave saddle point problem, and then present a primal-dual batch gradient method, as well as two stochastic variance reduction methods for solving the problem. These algorithms scale linearly in both sample size and feature dimension. Moreover, they achieve linear convergence even when the saddle-point problem has only strong concavity in the dual variables but no strong convexity in the primal variables. Numerical experiments on benchmark problems demonstrate the effectiveness of our methods.

研究动机与目标

  • 在强化学习的固定数据集下激励高效的策略评估。
  • 将 MSPBE 最小化形式表述为具有有限和结构的凸-凹鞍点问题。
  • 开发可扩展的算法,具有线性收敛和低每次迭代成本。
  • 在温和假设下通过 SVRG 和 SAGA 变体提供理论收敛保证。
  • 通过在基准 RL 问题上的实验展示有效性。

提出的方法

  • 使用共轭函数将 EM-MSPBE 转化为凸-凹鞍点问题。
  • 推导在满秩耦合和正定 C 条件下具有线性收敛的原始-对偶批量梯度法(PDBG)。
  • 引入利用有限和结构实现快速方差降低更新的 SVRG 和 SAGA 变体。
  • 确保每次迭代成本为 Z(d^2) 或更好,并随样本量 n 和特征维度 d 线性扩展。
  • 给出收敛性保证,即使原始目标函数不具备强凸性,在双线性耦合 A 和 C 条件良好时也可实现线性收敛。
  • 讨论对偏离策略学习和带资格追踪的 TD 的扩展。

实验结果

研究问题

  • RQ1EM-MSPBE 是否可以重新表述为适合方差减少方法的有限和凸-凹鞍点问题?
  • RQ2当鞍点问题仅具有对偶强凹性(rho 可能为零)且耦合矩阵为满秩时,SVRG 和 SAGA 在策略评估中是否能实现线性收敛?
  • RQ3在标准 RL 数据集上,与现有策略评估算法相比,所提出方法在计算开销和收敛性方面的表现如何?
  • RQ4在该鞍点框架内对离线学习和具有可成就迹的 TD 的影响是什么?

主要发现

  • 在 EM-MSPBE 下,假设 1(全秩 Â 与正定 Ĉ)成立时,SVRG 和 SAGA 实现策略评估的线性收敛。
  • 原始-对偶表述使得即使仅存在对偶强凹性(rho = 0)时也可以实现线性收敛,这是由于全秩的双线性耦合。
  • 每次迭代成本随数据集规模 n 和特征维度 d 线性扩展,具有高效的基于梯度的更新。
  • 在 n 或 d 较大时,SVRG/SAGA 相较于传统梯度方法和 LSTD 在复杂度方面具有优势。
  • 该方法可扩展到离线学习和带资格追踪的 TD,而不会牺牲收敛性保证。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。