QUICK REVIEW

[论文解读] UCB Exploration via Q-Ensembles

Richard Y. Chen, Szymon Sidor|arXiv (Cornell University)|Jun 5, 2017

Reinforcement Learning in Robotics参考文献 24被引用 77

一句话总结

本文介绍了以上置信界限 (UCB) 探索策略为核心的深度 Q 学习 Q-ensemble，显示在 Atari 游戏上的性能优于 Double DQN 和 Bootstrapped DQN。

ABSTRACT

We show how an ensemble of $Q^*$-functions can be leveraged for more effective exploration in deep reinforcement learning. We build on well established algorithms from the bandit setting, and adapt them to the $Q$-learning setting. We propose an exploration strategy based on upper-confidence bounds (UCB). Our experiments show significant gains on the Atari benchmark.

研究动机与目标

推动在深度 Q 学习中超越标准 ε-greedy 和 Boltzmann 方法的改进探索。
通过维护 Q 函数集合来近似 Q* 的后验，构建一个可行的贝叶斯启发框架。
提出一个使用多个 Q-head 的 Ensemble Voting 机制进行动作选择。
引入基于 UCB 的探索策略，利用集合的不确定性驱动探索。
在 Atari 基准测试上对比有竞争力的基线进行实证验证。

提出的方法

构造 K 个彼此独立初始化的 Q* 函数头以形成 Q-ensemble (Q1,...,QK)。
使用经验回放缓冲区和带有目标网络的标准 Bellman 更新以实现稳定性。
通过对每个 Qk 的 argmax 动作进行多数表决来汇聚动作（算法 1）。
通过在均值 Q 值上加入集合的经验标准差来导出基于 UCB 的探索规则（方程 13）。
暴露两种探索策略： Ensemble Voting（算法 1）和带有 Q-Ensembles 的 UCB 探索（算法 2）。
在 40M 个帧的 Atari 游戏上进行实证评估，并将其与 Double DQN、Bootstrapped DQN 以及一个基线（A3C+）进行比较。

实验结果

研究问题

RQ1 Ensemble Voting 是否优于 Atari 游戏上的 Double DQN 和 Bootstrapped DQN？
RQ2带有 Q-ensembles 的 UCB 探索策略是否在 Ensemble Voting 的基础上进一步提升学习效果？
RQ3在 Atari 游戏类别中，Q-ensembles 与 UCB 探索相比基于计数的探索方法（如 A3C+）的表现如何？
RQ4在哪些游戏类别（H uman Optimal、Score Explicit、Dense Reward、Sparse Reward）中这些方法表现出色？
RQ5集合大小和探索超参数对性能的影响？

主要发现

Ensemble Voting 在 Atari 游戏上优于 Double DQN 和 Bootstrapped DQN，且不需要显式探索。
带有 Q-ensembles 的 UCB 探索在 Ensemble Voting 基础上进一步提升，在许多游戏中达到最佳表现。
在 49 个 Atari 游戏中，UCB 探索在最大平均奖励方面达到最高，在 30 款游戏中超过基线。
与在 200M 帧下训练的 A3C+ 相比，提出的方法在大量游戏中以 40M 帧达到更高的平均奖励。
总体而言，UCB 探索在多个游戏类别中提升了性能，包括 Human Optimal、Score Explicit 和 Dense Reward。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。