Skip to main content
QUICK REVIEW

[论文解读] Randomized Ensembled Double Q-Learning: Learning Fast Without a Model

Xinyue Chen, Che Wang|arXiv (Cornell University)|Jan 15, 2021
Machine Learning and ELM参考文献 34被引用 26
一句话总结

REDQ 是一种无模型的 DRL 算法,使用较大的 Update-To-Data 比例、Q 函数集成,以及在目标内对随机子集进行最小化,以在 MuJoCo 环境中实现与最先进模型基方法相媲美甚至更好的高样本效率。

ABSTRACT

Using a high Update-To-Data (UTD) ratio, model-based methods have recently achieved much higher sample efficiency than previous model-free methods for continuous-action DRL benchmarks. In this paper, we introduce a simple model-free algorithm, Randomized Ensembled Double Q-Learning (REDQ), and show that its performance is just as good as, if not better than, a state-of-the-art model-based algorithm for the MuJoCo benchmark. Moreover, REDQ can achieve this performance using fewer parameters than the model-based method, and with less wall-clock run time. REDQ has three carefully integrated ingredients which allow it to achieve its high performance: (i) a UTD ratio >> 1; (ii) an ensemble of Q functions; (iii) in-target minimization across a random subset of Q functions from the ensemble. Through carefully designed experiments, we provide a detailed analysis of REDQ and related model-free algorithms. To our knowledge, REDQ is the first successful model-free DRL algorithm for continuous-action spaces using a UTD ratio >> 1.

研究动机与目标

  • 在连续动作 DRL 中无需模型就实现高样本效率这一问题进行动机阐述。
  • 提出一种简单的无模型算法(REDQ),在 MuJoCo 基准测试中可与基于模型的方法相比肩。
  • 分析 UTD 比例、集成以及在目标内最小化如何影响偏差和学习性能。
  • 提供关于 REDQ 偏差/方差动态的理论与实证洞见。
  • 展示在各环境中的鲁棒性及潜在改进(例如通过辅助特征学习)。

提出的方法

  • 引入 REDQ,包含三个要素:较大的 UTD 比例 G、N 个 Q 函数的集成,以及对集合中随机子集 M 进行在目标内最小化。
  • 使用对下一状态的 Q 函数随机子集 M 的最小值来计算 Q 目标 y,该 y 由集成中的所有 Q 函数共享。
  • 通过梯度下降将集成中每个 Q 网络更新到 y,且用集成中 Q 值的平均值来更新策略。
  • 调参:常用取值包括 G=20、N=10、M=2(实验默认值)。
  • 提供理论分析,展示 M 如何控制偏差、N 控制方差;表明更新后的偏差与 M 有关而与 N 无关,并且增大 M 可以将过估计偏差转化为低估偏差。
  • 可选地将 REDQ 与在线特征提取网络(OFE)扩展,形成 REDQ-OFE,在具有挑战性的任务上提升性能。

实验结果

研究问题

  • RQ1无模型算法能否在连续动作 DRL 基准测试中实现与模型基方法相当或更高的样本效率?
  • RQ2Update-To-Data 比例、集成大小以及在目标内最小化如何相互作用以影响偏差和学习稳定性?
  • RQ3哪些理论保证或洞见能解释 REDQ 相对于标准 SAC 或 Maxmin Q-learning 在连续控制中的性能优势?
  • RQ4将辅助表示学习(OFE)纳入是否会进一步提升 REDQ 在困难任务上的表现?

主要发现

  • REDQ 在 MuJoCo 的 Hopper、Walker2d、Ant 和 Humanoid 上的学习速度快于 SAC,并且在参数更少、墙钟时间更短的情况下,达到与 MBPO 相当或更好的性能。
  • 在 G=20、N=10、M=2 时,REDQ 的样本效率达到或超过 MBPO,同时参数减少 26%–70%,且在所报告的任务中墙钟时间大致降低 25%。
  • 带有在目标内最小化的集群在训练过程中的 Q 偏差标准差接近于零,并保持一个很小、接近零的负平均偏差,有助于相较于 SAC-20 与 AVG 的稳定、快速学习。
  • 理论结果表明,在固定 M 的情况下,更新后偏差的期望值不依赖于 N,增大 M 能减少偏差,而增大 N 会降低方差但不改变平均偏差;这解释了 REDQ 相对于 Maxmin 和 AVG 的鲁棒性和性能提升。
  • 将 REDQ 与在线特征提取网络(REDQ-OFE)结合的变体,在 Ant 和 Humanoid 上显著提升性能,在可比的交互次数下实现相对于 SAC 与 MBPO 的样本效率显著提升。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。