[论文解读] Never Give Up: Learning Directed Exploration Strategies
本论文提出 NGU,是一个强化学习代理,学习一族基于 episodic 与 life-long novelty 的定向探索策略,使用 UVFA 训练,在 Atari 上取得显著结果,包括在 Pitfall! 上实现非零奖励且无需示例演示。
We propose a reinforcement learning agent to solve hard exploration games by learning a range of directed exploratory policies. We construct an episodic memory-based intrinsic reward using k-nearest neighbors over the agent's recent experience to train the directed exploratory policies, thereby encouraging the agent to repeatedly revisit all states in its environment. A self-supervised inverse dynamics model is used to train the embeddings of the nearest neighbour lookup, biasing the novelty signal towards what the agent can control. We employ the framework of Universal Value Function Approximators (UVFA) to simultaneously learn many directed exploration policies with the same neural network, with different trade-offs between exploration and exploitation. By using the same neural network for different degrees of exploration/exploitation, transfer is demonstrated from predominantly exploratory policies yielding effective exploitative policies. The proposed method can be incorporated to run with modern distributed RL agents that collect large amounts of experience from many actors running in parallel on separate environment instances. Our method doubles the performance of the base agent in all hard exploration in the Atari-57 suite while maintaining a very high score across the remaining games, obtaining a median human normalised score of 1344.0%. Notably, the proposed method is the first algorithm to achieve non-zero rewards (with a mean score of 8,400) in the game of Pitfall! without using demonstrations or hand-crafted features.
研究动机与目标
- 通过学习可控的探索策略,推动深度强化学习中的鲁棒探索。
- 开发一个结合 episodic 与 life-long novelty 的内在奖励,以维持探索。
- 通过 UVFA,在同一个神经网络上共享多种探索-开发权衡。
- 在拥有大量 actor 的分布式 RL 设置中展示可扩展性。
提出的方法
- 计算一个内在奖励 r^i_t,结合 episodic novelty(通过在可控状态的 episodic memory 中的最近邻 k 个)和 life-long novelty(通过 Random Network Distillation)。
- 使用自监督的反向动力学目标学习一个可控状态嵌入 f(x),以将新颖性偏向环境中可控的方面。
- 使用 UVFA Q(x,a,β) 学习具有不同探索权重 β 的一族策略,使探索与开发之间形成从纯探索到开发的光谱。
- 使用分布式的离策略方法(R2D2)进行训练,采用变换的 Retrace 双 Q 学习损失和优先回放。
- 在每次前向传播中,将 β 条件、上一步动作、上一步奖励以及 β 专用信号嵌入到代理的输入中。
实验结果
研究问题
- RQ1一个单一神经网络是否能够支持具有不同探索/开发权衡的多种定向探索策略?
- RQ2将 episodic 与 life-long novelty 结合,是否能产生跨情节和环境持续存在的持续探索?
- RQ3这样的以探索为驱动的策略在没有示范的情况下,是否能在 Pitfall! 等高难度探索游戏中提升表现?
- RQ4在拥有大量并行收集经验的演员的分布式 RL 设置中,NGU 的可扩展性如何?
主要发现
- NGU 在高难度探索游戏中表现优于强基线,在 Atari-57 的中位人类归一化分数为 1344.0%。
- NGU 在 Pitfall! 中实现非零奖励(平均分约 8,400),无需示范或手工特征。
- 增加混合数量 N 并使用 RND 作为 life-long novelty 能提高在高难度探索游戏中的表现。
- 该方法在若干密集奖励的 Atari 游戏上表现具有竞争力甚至优于最佳基线,尽管某些设置(如 NGU 的 N>1 在某些游戏上)可能不如最佳基线。
- 在 Atari-57 的所有游戏中,NGU 的中位分数为 1354.4%(相比 Nature DQN 的 95%,R2D2 的 1920.6% 等),同时在大多数游戏上保持强力表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。