[论文解读] Reinforcement Learning via Fenchel-Rockafellar Duality
本文提出了一种基于Fenchel-Rockafellar对偶性的统一强化学习框架,通过凸优化实现与行为策略无关的离线策略评估以及在线策略的梯度估计。研究表明,正则化对偶形式可产生无约束对偶问题,从而在在线/离线、折扣/非折扣设置下实现稳定且可扩展的强化学习算法,并具备理论保证。
We review basic concepts of convex duality, focusing on the very general and supremely useful Fenchel-Rockafellar duality. We summarize how this duality may be applied to a variety of reinforcement learning (RL) settings, including policy evaluation or optimization, online or offline learning, and discounted or undiscounted rewards. The derivations yield a number of intriguing results, including the ability to perform policy evaluation and on-policy policy gradient with behavior-agnostic offline data and methods to learn a policy via max-likelihood optimization. Although many of these results have appeared previously in various forms, we provide a unified treatment and perspective on these results, which we hope will enable researchers to better use and apply the tools of convex duality to make further progress in RL.
研究动机与目标
- 将强化学习中分散的研究成果——特别是策略评估、策略优化和离线强化学习——统一在Fenchel-Rockafellar对偶性的理论框架之下。
- 通过将强化学习问题重新表述为基于对偶性的凸优化问题,解决时序差分方法中的不稳定性和发散问题。
- 通过推导不依赖行为策略知识的对偶目标,实现在离线强化学习中与行为策略无关的数据利用。
- 通过凸正则化系统性地推导出稳定且无约束的对偶问题,优于传统的线性规划方法。
- 通过提供一种通用协议,弥合优化与强化学习研究社区之间的鸿沟,支持利用对偶性和正则化推导新型强化学习算法。
提出的方法
- 将策略评估与优化问题形式化为具有线性约束和凸目标的约束凸优化问题。
- 应用Fenchel-Rockafellar对偶性,将原始问题转化为无约束对偶问题,提升可处理性与稳定性。
- 在原始目标中引入凸正则化项(如负熵、平方项),以确保强对偶性,并生成平滑、无约束的对偶形式。
- 推导出如 $\min_V \mathbb{E}_{d^\mathcal{D}}[\exp(R(s,a) + \mathcal{T}V(s,a) - V(s))]$ 的对偶目标,用于策略优化,实现最大似然策略恢复。
- 利用Lagrangian松弛和Danskin定理,即使在离线设置下,也能从对偶目标中推导出策略梯度。
- 通过正则化(如基于$\chi^2$-散度的GenDICE目标)将结果推广至非折扣设置,保持最优策略估计的一致性。
实验结果
研究问题
- RQ1如何系统性地应用Fenchel-Rockafellar对偶性,为强化学习问题推导出稳定且无约束的对偶形式?
- RQ2能否通过利用对偶性和正则化,在不依赖行为策略知识的前提下实现离线策略评估?
- RQ3凸正则化在将约束原始问题转化为适合随机优化的无约束对偶问题中发挥何种作用?
- RQ4与传统的时序差分方法和线性规划方法相比,基于对偶性的形式化在稳定性与样本效率方面表现如何?
- RQ5该对偶框架能否扩展至在线与离线设置下的策略优化与模仿学习?
主要发现
- 正则化策略评估问题的Fenchel-Rockafellar对偶为无约束问题,从而实现无需处理约束的稳定且可扩展的优化。
- 通过仅依赖数据分布 $d^\mathcal{D}$ 而不依赖行为策略的对偶形式,实现了与行为策略无关的离线策略评估。
- 最优对偶变量 $\zeta^*(s,a) = \frac{d^\pi(s,a)}{d^\mathcal{D}(s,a)}$ 恢复了真实的状态-动作访问比率,从而实现准确的策略价值估计。
- 通过对偶目标 $\min_V \mathbb{E}_{d^\mathcal{D}}[\exp(R(s,a) + \mathcal{T}V(s,a) - V(s))]$ 进行策略优化,可导出最大似然策略恢复规则。
- 原始问题中的正则化(如 $\ell_2$ 或熵正则化)保持了最优对偶解,使得即使在函数逼近下也能实现稳定训练。
- 通过 $\chi^2$-散度正则化,该框架可推广至非折扣设置,恢复具有保证一致性的GenDICE目标。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。