[论文解读] Stochastic Primal-Dual Methods and Sample Complexity of Reinforcement Learning
本文提出了一种用于有限时域和无限时域马尔可夫决策过程(MDP)的模型无关强化学习的随机原始-对偶(SPD)方法,利用贝尔曼方程中的对偶性,实现高效且低存储的在线学习。该方法在有限时域MDP中使用 O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ)) 个样本,在无限时域MDP中使用 O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ)) 个样本,以高概率实现 ϵ-最优策略,通过对偶间隙分析和鞅集中不等式建立了紧致的样本复杂度界限。
We study the online estimation of the optimal policy of a Markov decision process (MDP). We propose a class of Stochastic Primal-Dual (SPD) methods which exploit the inherent minimax duality of Bellman equations. The SPD methods update a few coordinates of the value and policy estimates as a new state transition is observed. These methods use small storage and has low computational complexity per iteration. The SPD methods find an absolute-$ε$-optimal policy, with high probability, using $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2σ^2 }{(1-γ)^6ε^2} ight)$ iterations/samples for the infinite-horizon discounted-reward MDP and $\mathcal{O}\left(\frac{|\mathcal{S}|^4 |\mathcal{A}|^2H^6σ^2 }{ε^2} ight)$ for the finite-horizon MDP.
研究动机与目标
- 开发一种无需完整掌握转移概率或奖励分布知识的模型无关、可扩展的强化学习算法,并在理论上保证样本复杂度。
- 通过将贝尔曼方程形式化为随机鞍点问题,利用其内在的原始-对偶结构。
- 设计一种每轮迭代计算与存储成本低的随机原始-对偶算法,适用于从流式状态转移中进行在线学习。
- 利用对偶间隙上的概率集中技术,为有限时域和无限时域MDP建立紧致的样本复杂度界限。
- 证明该方法在多项式时间复杂度内,以高概率实现 ϵ-最优策略。
提出的方法
- 将贝尔曼方程形式化为随机鞍点问题,其中最优值函数和策略分别为原始解与对偶解。
- 提出 SPD-dMDP 和 SPD-fMDP 算法,通过单个状态转移的噪声部分梯度,实时更新值函数和策略估计。
- 使用对特殊构造集合的替代投影,以保持可行性并确保在随机设置下的收敛性。
- 在有限时域情况下采用时变学习率策略,对早期时间步采用更激进的更新,以平衡误差传播。
- 分析对偶间隙序列,并对构造的鞅应用伯恩斯坦不等式,以界定期望收敛速率。
- 将对偶间隙用作策略次优性的代理指标,建立间隙收敛与所学策略近似误差之间的联系。
实验结果
研究问题
- RQ1能否设计一种随机原始-对偶方法,使其在模型无关强化学习中实现最优样本复杂度?
- RQ2如何利用贝尔曼方程中的内在对偶性,设计低存储、低复杂度的在线学习算法?
- RQ3在使用随机、增量更新的方法中,实现有限时域和折扣无限时域MDP中 ϵ-最优策略的最紧样本复杂度界限是什么?
- RQ4在有限时域MDP中,如何在时间步上自适应调整学习率,以确保收敛性和最优样本效率?
- RQ5对偶间隙能否作为可靠的收敛指标,直接界定所学策略的次优性?
主要发现
- SPD-dMDP 算法在无限时域折扣MDP中,以至少 1−δ 的概率,使用 O(|S|⁴|A|²σ²/(1−γ)⁶ϵ² log(1/δ)) 次迭代实现 ϵ-最优策略。
- SPD-fMDP 算法在具有 H 个阶段的有限时域MDP中,以至少 1−δ 的概率,使用 O(|S|⁴|A|²H⁶σ²/ϵ² log(1/δ)) 次迭代实现 ϵ-最优策略。
- 样本复杂度界限是紧致的,且在问题参数 |S|、|A|、H、σ 和 1/ϵ 上为多项式关系,对 1/δ 的依赖为对数关系。
- 对偶间隙序列的收敛速率为 O(1/√T),在给定条件下意味着期望策略次优性以 O(1/√T) 的速率衰减。
- 分析表明,对偶间隙上界控制了 ∞-范数下的策略次优性,且该间隙通过 H² 因子与值函数误差相关联。
- 该方法实现了次线性空间复杂度:在折扣MDP中为 O(|S||A|),在有限时域MDP中为 O(|S||A|H),使其可扩展至大规模状态-动作空间。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。