[论文解读] Stabilizing Off-Policy Q-Learning via Bootstrapping Error Reduction
本文指出来自分布外动作的自举误差是静态数据集下离策略Q学习的一个关键不稳定性,并提出 BEAR,一种受分布约束的离线强化学习方法,可以减少误差积累,在多样化的离策略数据上实现稳健表现。
Off-policy reinforcement learning aims to leverage experience collected from prior policies for sample-efficient learning. However, in practice, commonly used off-policy approximate dynamic programming methods based on Q-learning and actor-critic methods are highly sensitive to the data distribution, and can make only limited progress without collecting additional on-policy data. As a step towards more robust off-policy algorithms, we study the setting where the off-policy experience is fixed and there is no further interaction with the environment. We identify bootstrapping error as a key source of instability in current methods. Bootstrapping error is due to bootstrapping from actions that lie outside of the training data distribution, and it accumulates via the Bellman backup operator. We theoretically analyze bootstrapping error, and demonstrate how carefully constraining action selection in the backup can mitigate it. Based on our analysis, we propose a practical algorithm, bootstrapping error accumulation reduction (BEAR). We demonstrate that BEAR is able to learn robustly from different off-policy distributions, including random and suboptimal demonstrations, on a range of continuous control tasks.
研究动机与目标
- 在不进一步与环境交互的情况下,激发从大型静态离策略数据集中进行学习。
- 分析 Q-learning 中由分布外动作引起的自举误差。
- 开发一种可行的离策略算法,通过动作支持约束控制误差传播。
- 为分布约束回退提供理论见解和性能保证。
提出的方法
- 建立在数据分布的支持集 Pi 内最大化的策略之上的分布约束回退。
- 引入子优化常数 alpha(Pi) 和可聚性 C(Pi) 来界定离策略性能。
- 提出 BEAR:使用 Q-集成并通过集合 Pi_epsilon(支持约束集合)中的最小 Q 值来选择动作。
- 使用基于可微的 MMD 约束来近似 Pi_epsilon,以匹配行为策略的支持。
- 使用对偶梯度方法和基于样本的 MMD 估计来求解受约束的策略改进。
- 通过将策略搜索限制在数据支持内来将 BEAR 与分布约束的回退联系起来,同时保持性能。
实验结果
研究问题
- RQ1在固定的离策略数据集且不进行交互的情况下,离策略Q学习能否实现稳定?
- RQ2将回退约束在数据支持内如何影响误差传播和整体性能?
- RQ3分布约束的回退是否可在来自随机、次优和最优策略的数据集上实现泛化?
- RQ4基于 BEAR 的离线强化学习方法是否在多样化的连续控制任务中优于如 BCQ 和 TD3 等现有方法?
主要发现
- 在 MuJoCo 任务中,BEAR-QL 在中等质量数据上持续超越 BCQ 和简单离策略强化学习。
- BEAR-QL 在随机和接近最优的数据集上实现稳健表现,常常与数据集回报相匹配或超过。
- 通过基于 MMD 的约束将回退限于数据支持,相比 KL 散度或无约束方法能带来更稳定的学习。
- 在各种数据条件下,BEAR 在困难环境(如 Humanoid-v2)中保持竞争性表现。
- 一个两层或多 Q 的集成及保守的策略改进能提高对数据集组成的鲁棒性。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。