QUICK REVIEW

[论文解读] Deep Exploration via Bootstrapped DQN

Ian Osband, Charles Blundell|arXiv (Cornell University)|Feb 15, 2016

Reinforcement Learning in Robotics参考文献 39被引用 460

一句话总结

Bootstrapped DQN 在深度 Q 网络上引入多个引导头，以量化不确定性并实现深层、时间延展的探索，从而在 Atari 游戏中比 DQN 拥有更快的学习速度和更好的性能。

ABSTRACT

Efficient exploration in complex environments remains a major challenge for reinforcement learning. We propose bootstrapped DQN, a simple algorithm that explores in a computationally and statistically efficient manner through use of randomized value functions. Unlike dithering strategies such as epsilon-greedy exploration, bootstrapped DQN carries out temporally-extended (or deep) exploration; this can lead to exponentially faster learning. We demonstrate these benefits in complex stochastic MDPs and in the large-scale Arcade Learning Environment. Bootstrapped DQN substantially improves learning times and performance across most Atari games.

研究动机与目标

在非线性函数逼近器的深度强化学习中激励高效的深层探索。
在 DQN 框架中开发一种可扩展的方法，通过引导神经网络头来估计不确定性。
在实现时空延展探索的同时，确保计算效率并与现有深度 RL 方法兼容。

提出的方法

使用一个共享的深度网络，具有 K 个引导Q值头，以表示对 Q 值的近似后验。
在带有自身目标网络的引导子样本数据上训练每个头，从而通过逐集 (episode-level) 策略选择实现时序扩展探索。
在每一回合中，均匀选择一个头 k，并在回合期间按照 Q_k 的最优策略行动。
使用 TD 目标更新头部：y^Q_t = r_t + gamma max_a Q(s_{t+1}, a; theta^-)，其中 theta^- 是每个头部定期更新的目标网络。
使用引导掩码来确定每次转移训练哪些头，并将这些掩码存储在重放缓存中。
通过共享网络权重并使用固定、简单的引导机制来保持计算效率（如在其在线设置中 p = 1）。

实验结果

研究问题

RQ1随机价值函数与引导神经网络是否能够在非线性函数逼近器中产生有效的深层探索？
RQ2在像 Atari 这样的大规模高维环境中，Bootstrapped DQN 是否比标准 DQN 提高学习速度和累计奖励？
RQ3在深度 RL 中应如何实现引导过程，以在探索多样性与计算效率之间取得平衡？
RQ4在具有挑战性的探索问题（如长决策时域）以及跨多游戏中，深层探索在定性和定量方面有哪些好处？

主要发现

与 DQN 相比，Bootstrapped DQN 在大多数 Atari 游戏中显著缩短了学习时间并提升了性能。
该方法在评估的游戏中平均水平大约更快实现达到人类性能约 30%，并在学习过程中提升累计奖励。
在共享网络的前提下，使用 10 个引导头（K=10）且仅有一个简单的引导机制，Bootstrapped DQN 相对于在相同硬件上的 DQN 实现更快的学习，且约在 20% 的时钟时间损失以下。
相比基线，Bootstrapped DQN 在比较的 14 个游戏中达到更高的 AUC-20 平均值（0.62 对 0.29，竞争方法为 0.37）。
每个头部都发现了多样且高效的策略，促成比 epsilon-greedy 更丰富的探索，并使集成投票能够反映不确定性。
该方法计算效率高且可并行化，适用于大规模深度 RL 应用。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。