QUICK REVIEW
[论文解读] UCB Exploration via Q-Ensembles
Richard Y. Chen, Szymon Sidor|arXiv (Cornell University)|Jun 5, 2017
Reinforcement Learning in Robotics参考文献 24被引用 77
一句话总结
本文介绍了以上置信界限 (UCB) 探索策略为核心的深度 Q 学习 Q-ensemble,显示在 Atari 游戏上的性能优于 Double DQN 和 Bootstrapped DQN。
ABSTRACT
We show how an ensemble of $Q^*$-functions can be leveraged for more effective exploration in deep reinforcement learning. We build on well established algorithms from the bandit setting, and adapt them to the $Q$-learning setting. We propose an exploration strategy based on upper-confidence bounds (UCB). Our experiments show significant gains on the Atari benchmark.
研究动机与目标
- 推动在深度 Q 学习中超越标准 ε-greedy 和 Boltzmann 方法的改进探索。
- 通过维护 Q 函数集合来近似 Q* 的后验,构建一个可行的贝叶斯启发框架。
- 提出一个使用多个 Q-head 的 Ensemble Voting 机制进行动作选择。
- 引入基于 UCB 的探索策略,利用集合的不确定性驱动探索。
- 在 Atari 基准测试上对比有竞争力的基线进行实证验证。
提出的方法
- 构造 K 个彼此独立初始化的 Q* 函数头以形成 Q-ensemble (Q1,...,QK)。
- 使用经验回放缓冲区和带有目标网络的标准 Bellman 更新以实现稳定性。
- 通过对每个 Qk 的 argmax 动作进行多数表决来汇聚动作(算法 1)。
- 通过在均值 Q 值上加入集合的经验标准差来导出基于 UCB 的探索规则(方程 13)。
- 暴露两种探索策略: Ensemble Voting(算法 1)和带有 Q-Ensembles 的 UCB 探索(算法 2)。
- 在 40M 个帧的 Atari 游戏上进行实证评估,并将其与 Double DQN、Bootstrapped DQN 以及一个基线(A3C+)进行比较。
实验结果
研究问题
- RQ1 Ensemble Voting 是否优于 Atari 游戏上的 Double DQN 和 Bootstrapped DQN?
- RQ2带有 Q-ensembles 的 UCB 探索策略是否在 Ensemble Voting 的基础上进一步提升学习效果?
- RQ3在 Atari 游戏类别中,Q-ensembles 与 UCB 探索相比基于计数的探索方法(如 A3C+)的表现如何?
- RQ4在哪些游戏类别(H uman Optimal、Score Explicit、Dense Reward、Sparse Reward)中这些方法表现出色?
- RQ5集合大小和探索超参数对性能的影响?
主要发现
- Ensemble Voting 在 Atari 游戏上优于 Double DQN 和 Bootstrapped DQN,且不需要显式探索。
- 带有 Q-ensembles 的 UCB 探索在 Ensemble Voting 基础上进一步提升,在许多游戏中达到最佳表现。
- 在 49 个 Atari 游戏中,UCB 探索在最大平均奖励方面达到最高,在 30 款游戏中超过基线。
- 与在 200M 帧下训练的 A3C+ 相比,提出的方法在大量游戏中以 40M 帧达到更高的平均奖励。
- 总体而言,UCB 探索在多个游戏类别中提升了性能,包括 Human Optimal、Score Explicit 和 Dense Reward。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。