[论文解读] COMBO: Conservative Offline Model-Based Policy Optimization
COMBO 在离线数据和模型生成数据的基础上优化保守的 Q 函数,不依赖显式的不确定性估计,提供一个保证的下界并在离线强化学习中具有强泛化能力。
Model-based algorithms, which learn a dynamics model from logged experience and perform some sort of pessimistic planning under the learned model, have emerged as a promising paradigm for offline reinforcement learning (offline RL). However, practical variants of such model-based algorithms rely on explicit uncertainty quantification for incorporating pessimism. Uncertainty estimation with complex models, such as deep neural networks, can be difficult and unreliable. We overcome this limitation by developing a new model-based offline RL algorithm, COMBO, that regularizes the value function on out-of-support state-action tuples generated via rollouts under the learned model. This results in a conservative estimate of the value function for out-of-support state-action tuples, without requiring explicit uncertainty estimation. We theoretically show that our method optimizes a lower bound on the true policy value, that this bound is tighter than that of prior methods, and our approach satisfies a policy improvement guarantee in the offline setting. Through experiments, we find that COMBO consistently performs as well or better as compared to prior offline model-free and model-based methods on widely studied offline RL benchmarks, including image-based tasks.
研究动机与目标
- 处理离线 RL 的分布偏移,而不依赖不确定的模型误差估计。
- 利用离线数据和合成的模型回放来训练保守的价值函数。
- 提供策略改进的理论保证及对真实回报的下界。
- 展示在需要泛化和基于图像的离线 RL 基准测试中的强性能。
提出的方法
- 在离线数据集上训练一个概率动力学模型。
- 使用保守的 Q 函数更新(式(Eq. 2))通过一个分布平衡的贝尔曼备份惩罚超出支持的模型回放。
- 在贝尔曼备份中交错离线数据和模型生成数据(类似 Dyna 的增强)。
- 定义采样分布 ρ(s,a) 和 d_f(s,a) 来在超出支持的元组上压低 Q 值,在数据集支持的元组上抬高。
- 使用保守的评判网络( Eq. 3 )来改进策略,确保相对于行为策略的安全策略改进。
- 通过监控 Eq. 2 的正则化目标进行离线超参数调整,以避免在线回放。
实验结果
研究问题
- RQ1COMBO 能否在离线 RL 中在不进行显式不确定性量化的情况下实现可靠的策略改进?
- RQ2与之前的离线无模型与有模型方法在泛化任务和标准基准(包括基于图像的任务)上的表现相比?
- RQ3将模型回放与保守的评判网络结合是否在没有 oracle 不确定性情况下提升对分布外的泛化?
- RQ4COMBO 就回报下界和安全策略改进提供了哪些理论保证?
主要发现
- COMBO 在需要分布外泛化的任务上超越 MOPO、MOReL 和 CQL(halfcheetah-jump 与 sawyer-door-close)。
- 在 ant-angle 上,COMBO 比 MOPO 提升约 8%;比 MOReL 提升约 4%;比 CQL 提升约 12%。
- COMBO 在标准基准上与或超过以往离线 RL 方法,并在 D4RL 的 12 个 MuJoCo 领域中获得 9 个领域的最高分。
- 不确定性估计在离线 MB RL 中不可靠;COMBO 通过不需要不确定性 oracle 来避免。
- 理论结果表明 COMBO 学习的 Q 函数对真实 Q 函数下界并提供安全策略改进保证。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。