[论文解读] Provably Good Batch Reinforcement Learning Without Great Exploration
本论文提出保守的、边缘化行为支持的批量强化学习算法(MBS-PI 和 MBS-QI),在数据支持区域内保证近似最优策略,而不依赖强集合性假设。并提供理论与实证评估,显示在批量设置中相较基线具有更高的稳定性和性能。
Batch reinforcement learning (RL) is important to apply RL algorithms to many high stakes tasks. Doing batch RL in a way that yields a reliable new policy in large domains is challenging: a new decision policy may visit states and actions outside the support of the batch data, and function approximation and optimization with limited samples can further increase the potential of learning policies with overly optimistic estimates of their future performance. Recent algorithms have shown promise but can still be overly optimistic in their expected outcomes. Theoretical work that provides strong guarantees on the performance of the output policy relies on a strong concentrability assumption, that makes it unsuitable for cases where the ratio between state-action distributions of behavior policy and some candidate policies is large. This is because in the traditional analysis, the error bound scales up with this ratio. We show that a small modification to Bellman optimality and evaluation back-up to take a more conservative update can have much stronger guarantees. In certain settings, they can find the approximately best policy within the state-action space explored by the batch data, without requiring a priori assumptions of concentrability. We highlight the necessity of our conservative update and the limitations of previous algorithms and analyses by illustrative MDP examples, and demonstrate an empirical comparison of our algorithm and other state-of-the-art batch RL baselines in standard benchmarks.
研究动机与目标
- 在数据仅部分覆盖状态-动作空间时激励批量强化学习,并指出传统方法存在过于乐观估计的风险。
- 提出保守的 Bellman 备份,将更新限定在良好支持的状态-动作对上。
- 开发带有理论保证的 Marginalized Behavior Supported Policy Iteration (MBS-PI) 和 Q-Iteration (MBS-QI)。
- 提供在离散和连续域中相较基线具有鲁棒性和更好性能的实证评估。
提出的方法
- 引入基于密度的过滤器 兹(s,a; μ̂,b) ,将 Bellman 备份限制在良好支持的状态-动作对上。
- 定义一个 兹-约束的 Bellman 评估算子 ¯T^{π} 和用于 Q 学习的 ¯T 算子,利用 兹 避免外推。
- 将 MBS-PI 和 MBS-QI 表述为受约束的 API 和 AVI 变体,仅对数据支持的动作进行优化。
- 使用最小二乘经验损失 ¯l_D(f;f',p) 在受约束的算子框架内拟合 Q 函数。
- 给出理论保证:将输出与受约束集合 ⊤Π_all 中覆盖最好的策略进行比较,界限随超参数 b 的变化而缩放(通过 C = U/b)。
- 讨论选择阈值 b 以及估计行为密度 μ 的实用方面。
实验结果
研究问题
- RQ1批量 RL 算法是否能够在避免依赖强集合性假设的前提下保证良好性能?
- RQ2将 Bellman 备份约束在数据支持的状态-动作对上,是否在离散和连续域中都能带来可证明的保证和更好的经验表现?
- RQ3在不同数据覆盖下,MBS-PI 和 MBS-QI 与现有基线(如 BCQL、SPIBB、BEAR、BC)相比如何?
- RQ4阈值参数 b 在权衡保守性与乐观性中的作用,以及在实际中应如何设定?
- RQ5在何种条件下,受约束的方法可以在数据支持的策略类中实现近似最优性能?
主要发现
- MBS-PI 和 MBS-QI 可以在批量数据所探索的状态-动作空间内识别近似最佳的策略,而不需要聚集性假设。
- 兹-约束的 Bellman 算子减少了对支持不足区域的更新,减轻了以往批量 RL 方法中常见的过于乐观的自举问题。
- 理论保证显示,与最好覆盖策略的价值差距随数据密度界限和阈值参数 b 一起缩放,并且还依赖于 n 和 (1-γ) 等因素。
- 在离散 CartPole 和连续 MuJoCo 任务上的实证结果,在不同数据覆盖情景下显示出比基线更好的稳定性和性能。
- 该框架在离散情境下提供安全策略改进风格的保证,并且对行为密度 μ̂ 的估计误差具有鲁棒性。
- 超参数 b 是平衡保守性和数据利用的核心,给出实际选择和诊断检查的建议。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。