Skip to main content
QUICK REVIEW

[论文解读] Feature-Based Q-Learning for Two-Player Stochastic Games

Zeyu Jia, Lin F. Yang|arXiv (Cornell University)|Jun 2, 2019
Reinforcement Learning in Robotics参考文献 40被引用 24
一句话总结

该论文提出了一种基于特征的Q-learning算法,用于双人随机博弈,通过采样近似纳什均衡策略。在高概率下,其样本复杂度达到 $\tilde{O}(K/((1-\rho)^4\rho^2))$,其中 $K$ 为特征数量,$\rho$ 为折扣因子,显著优于先前的界限,并确保了与博弈维度无关的样本、时间和空间效率。

ABSTRACT

Consider a two-player zero-sum stochastic game where the transition function can be embedded in a given feature space. We propose a two-player Q-learning algorithm for approximating the Nash equilibrium strategy via sampling. The algorithm is shown to find an $ε$-optimal strategy using sample size linear to the number of features. To further improve its sample efficiency, we develop an accelerated algorithm by adopting techniques such as variance reduction, monotonicity preservation and two-sided strategy approximation. We prove that the algorithm is guaranteed to find an $ε$-optimal strategy using no more than $ ilde{\mathcal{O}}(K/(ε^{2}(1-γ)^{4}))$ samples with high probability, where $K$ is the number of features and $γ$ is a discount factor. The sample, time and space complexities of the algorithm are independent of original dimensions of the game.

研究动机与目标

  • 解决使用函数逼近求解双人随机博弈时缺乏可证明高效的算法的问题。
  • 克服零和随机博弈中未知转移模型和高维状态-动作空间的挑战。
  • 设计一种样本高效的算法,利用有限的状态-动作特征集近似纳什均衡。
  • 实现与特征数量 $K$、折扣因子 $(1-\rho)$ 和期望精度 $\boldsymbol{\rho}$ 相关的最优样本复杂度量级。

提出的方法

  • 提出一种双人Q-learning算法,利用基于特征的表示方法,在双人零和随机博弈中近似Q值函数。
  • 利用采样预言机生成转移,实现在线学习,而无需显式了解转移模型。
  • 引入方差减少技术与单调性保持机制,以加速收敛并提高样本效率。
  • 采用双侧策略近似方案,从上下两个方向界定均衡值,通过结合两个近似策略形成一个 $\boldsymbol{\rho}$-最优策略。
  • 应用转移模型的特征嵌入以降低维度,确保时间、空间和样本复杂度仅与 $K$ 和 $1/(1-\rho)$ 呈多项式关系。
  • 利用集中不等式和模型误设下的稳定性界,证明了以高概率收敛至 $\boldsymbol{\rho}$-最优策略。

实验结果

研究问题

  • RQ1在使用基于特征的函数逼近时,求解双人随机博弈中找到一个 $\boldsymbol{\rho}$-最优策略所需的最少样本数是多少?
  • RQ2Q-learning风格的算法能否在双人设置下实现与MDP的信息论下界相当的样本效率?
  • RQ3方差减少与单调性保持如何改善双人Q-learning的样本复杂度?
  • RQ4模型误设对基于特征的双人Q-learning性能有何影响?
  • RQ5该算法能否在不依赖原始博弈状态和动作空间维度的情况下,保持样本、时间和空间效率?

主要发现

  • 基础双人Q-learning算法在寻找 $\boldsymbol{\rho}$-最优策略时,样本复杂度为 $\tilde{O}(K/((1-\rho)^7\boldsymbol{\rho}^2))$。
  • 采用方差减少与双侧近似方案的加速算法,将样本复杂度降低至 $\tilde{O}(K/((1-\rho)^4\boldsymbol{\rho}^2))$,在对数因子范围内达到信息论下界。
  • 该算法的样本、时间和空间复杂度与 $K$ 和 $1/(1-\rho)$ 呈多项式关系,且独立于原始状态和动作空间的维度。
  • 在模型误设下,该算法提供了次优性差距的上界:真实模型中的 $\boldsymbol{\rho}$-最优策略在扰动模型中仍为 $(2\boldsymbol{\rho}/(1-\rho)^2 + 2\boldsymbol{\rho})$-最优。
  • 所提出的算法是首个在基于特征的函数逼近下,实现双人随机博弈可证明最优样本复杂度的算法。
  • 理论分析证实了以高概率收敛至 $\boldsymbol{\rho}$-最优策略,且对估计误差和策略次优性提供了严格的界。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。