[论文解读] Uncertainty-Based Offline Reinforcement Learning with Diversified Q-Ensemble
本文提出 EDAC,一种集合梯度多样化的离线强化学习方法,利用通过截断的 Q 学习的基于不确定性的惩罚以及集成多样化来实现最先进的结果,同时所需网络数量更少。
Offline reinforcement learning (offline RL), which aims to find an optimal policy from a previously collected static dataset, bears algorithmic difficulties due to function approximation errors from out-of-distribution (OOD) data points. To this end, offline RL algorithms adopt either a constraint or a penalty term that explicitly guides the policy to stay close to the given dataset. However, prior methods typically require accurate estimation of the behavior policy or sampling from OOD data points, which themselves can be a non-trivial problem. Moreover, these methods under-utilize the generalization ability of deep neural networks and often fall into suboptimal solutions too close to the given dataset. In this work, we propose an uncertainty-based offline RL method that takes into account the confidence of the Q-value prediction and does not require any estimation or sampling of the data distribution. We show that the clipped Q-learning, a technique widely used in online RL, can be leveraged to successfully penalize OOD data points with high prediction uncertainties. Surprisingly, we find that it is possible to substantially outperform existing offline RL methods on various tasks by simply increasing the number of Q-networks along with the clipped Q-learning. Based on this observation, we propose an ensemble-diversified actor-critic algorithm that reduces the number of required ensemble networks down to a tenth compared to the naive ensemble while achieving state-of-the-art performance on most of the D4RL benchmarks considered.
研究动机与目标
- 在没有显式行为策略估计或数据分布采样的情况下,推动鲁棒的离线 RL。
- 利用 Q 函数集合的预测不确定性对 OOD 行为进行惩罚。
- 证明增加带截断 Q 学习的 Q 集成规模能带来强烈的离线 RL 表现。
- 通过集合梯度多样化正则化来减少所需的集成规模。
- 在 D4RL MuJoCo 和 Adroit 基准上展示最先进的结果。
提出的方法
- 采用 N 个 Q 网络的集合来计算使用集合中最小值的截断 Q 学习目标。
- 通过利用集成预测的下置信界实现基于不确定性的惩罚。
- 引入集合梯度多样化(ES)目标,通过最小化成对梯度对齐来最大化 Q 网络间的梯度多样性。
- 将截断 Q 学习目标、每个网络的 Q 函数更新和 ES 正则化结合起来,形成 EDAC(集合-去相关演员-评论家)。
- 给出一个算法描述,其中目标为 y = r + γ min_j Q'φ_j'(s', a') − β log πθ(a'|s'),并对 Qφ_i 和 θ 的更新如 SAC,外加 ES 正则化。
- 证明在明显少于天真 SAC-N 的情况下,EDAC 能实现具有竞争力或更优的性能。
实验结果
研究问题
- RQ1是否能有效利用 Q 值预测的不确定性,在不进行数据分布采样或行为策略估计的情况下约束离线 RL?
- RQ2高数量的 Q 集成结合截断 Q 学习是否能提升离线 RL 的表现,集合梯度多样化能否减少所需的集成规模?
- RQ3相较于离线 RL 的标准集合方法,梯度多样化对稳定性和性能有何影响?
主要发现
- 增加 Q 网络数量并结合截断 Q 学习可提升离线 RL 的性能,在若干任务上超过先前的最先进水平。
- 截断 Q 学习作为悲观惩罚,通过利用集成不确定性有效降低对 OOD 数据的高估。
- 集合梯度多样化目标(ES)提高梯度多样性,降低对极大集成规模的需求(例如从数百降低到 Hopper 的不到 50),同时保持强劲表现。
- EDAC 将集合悲观与梯度多样化结合起来,在大多数所考察的 D4RL 基准上实现了最先进的性能,常比 CQL 需要的计算量更低。
- 在 D4RL MuJoCo Gym 的经验结果显示,EDAC 和 SAC-N 在随机、中等和专家数据集上均优于或与基线相竞争;与 SAC-N 相比,EDAC 在使用更少的 Q 网络时也达到较强的平均性能。
- 在 Adroit 任务上,EDAC 和 SAC-N 表现稳健,EDAC 往往匹配或超过先前结果,尤其在钢笔相关任务上。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。