Skip to main content
QUICK REVIEW

[论文解读] UCB Exploration via Q-Ensembles

Richard Y. Chen, Szymon Sidor|arXiv (Cornell University)|Jun 5, 2017
Reinforcement Learning in Robotics参考文献 24被引用 77
一句话总结

本文介绍了以上置信界限 (UCB) 探索策略为核心的深度 Q 学习 Q-ensemble,显示在 Atari 游戏上的性能优于 Double DQN 和 Bootstrapped DQN。

ABSTRACT

We show how an ensemble of $Q^*$-functions can be leveraged for more effective exploration in deep reinforcement learning. We build on well established algorithms from the bandit setting, and adapt them to the $Q$-learning setting. We propose an exploration strategy based on upper-confidence bounds (UCB). Our experiments show significant gains on the Atari benchmark.

研究动机与目标

  • 推动在深度 Q 学习中超越标准 ε-greedy 和 Boltzmann 方法的改进探索。
  • 通过维护 Q 函数集合来近似 Q* 的后验,构建一个可行的贝叶斯启发框架。
  • 提出一个使用多个 Q-head 的 Ensemble Voting 机制进行动作选择。
  • 引入基于 UCB 的探索策略,利用集合的不确定性驱动探索。
  • 在 Atari 基准测试上对比有竞争力的基线进行实证验证。

提出的方法

  • 构造 K 个彼此独立初始化的 Q* 函数头以形成 Q-ensemble (Q1,...,QK)。
  • 使用经验回放缓冲区和带有目标网络的标准 Bellman 更新以实现稳定性。
  • 通过对每个 Qk 的 argmax 动作进行多数表决来汇聚动作(算法 1)。
  • 通过在均值 Q 值上加入集合的经验标准差来导出基于 UCB 的探索规则(方程 13)。
  • 暴露两种探索策略: Ensemble Voting(算法 1)和带有 Q-Ensembles 的 UCB 探索(算法 2)。
  • 在 40M 个帧的 Atari 游戏上进行实证评估,并将其与 Double DQN、Bootstrapped DQN 以及一个基线(A3C+)进行比较。

实验结果

研究问题

  • RQ1 Ensemble Voting 是否优于 Atari 游戏上的 Double DQN 和 Bootstrapped DQN?
  • RQ2带有 Q-ensembles 的 UCB 探索策略是否在 Ensemble Voting 的基础上进一步提升学习效果?
  • RQ3在 Atari 游戏类别中,Q-ensembles 与 UCB 探索相比基于计数的探索方法(如 A3C+)的表现如何?
  • RQ4在哪些游戏类别(H uman Optimal、Score Explicit、Dense Reward、Sparse Reward)中这些方法表现出色?
  • RQ5集合大小和探索超参数对性能的影响?

主要发现

  • Ensemble Voting 在 Atari 游戏上优于 Double DQN 和 Bootstrapped DQN,且不需要显式探索。
  • 带有 Q-ensembles 的 UCB 探索在 Ensemble Voting 基础上进一步提升,在许多游戏中达到最佳表现。
  • 在 49 个 Atari 游戏中,UCB 探索在最大平均奖励方面达到最高,在 30 款游戏中超过基线。
  • 与在 200M 帧下训练的 A3C+ 相比,提出的方法在大量游戏中以 40M 帧达到更高的平均奖励。
  • 总体而言,UCB 探索在多个游戏类别中提升了性能,包括 Human Optimal、Score Explicit 和 Dense Reward。

更好的研究,从现在开始

从论文设计到论文写作,大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成,并经人工编辑审核。