QUICK REVIEW

[论文解读] Model-Free Episodic Control

Charles Blundell, Benigno Uría|arXiv (Cornell University)|Jun 14, 2016

Memory and Neural Mechanisms参考文献 35被引用 172

一句话总结

本文提出了一种非参数 episodic control 机制，能够快速存储并重放高回报经验，从而比深度强化学习方法更快学习策略，在 Atari 和 Labyrinth 环境中得到验证。

ABSTRACT

State of the art deep reinforcement learning algorithms take many millions of interactions to attain human-level performance. Humans, on the other hand, can very quickly exploit highly rewarding nuances of an environment upon first discovery. In the brain, such rapid learning is thought to depend on the hippocampus and its capacity for episodic memory. Here we investigate whether a simple model of hippocampal episodic control can learn to solve difficult sequential decision-making tasks. We demonstrate that it not only attains a highly rewarding strategy significantly faster than state-of-the-art deep reinforcement learning algorithms, but also achieves a higher overall reward on some of the more challenging domains.

研究动机与目标

通过利用海马体启发的 episodic control，推动强化学习中的快速、一次性学习。
开发一个简单的、非参数的 episodic memory (Q_EC)，用于存储并回放高回报的状态-动作轨迹。
用最近邻方案和表征来解决表格化强化学习的记忆与泛化挑战。
在固定环境中展示数据高效学习，以及在基线深度强化学习方法中具有竞争力或更优的性能。

提出的方法

维持一个不断增长的非参数表 Q_EC(s,a)，存储每个状态-动作对所实现的最高回报。
在每个动作缓冲区中使用 k 最近邻来对新颖状态泛化 Q_EC，通过平均前 k 个存储状态的值来估算（Eq. 2）。
使用特征映射 phi（随机投影或基于 VAE 的潜在特征）将观测嵌入以确定状态空间距离。
使用当前由 Q_EC 启示的策略执行情节，然后在情节上进行向后回放以更新 Q_EC 条目（Eq. 1）。
通过最近最少使用（LRU）遗忘来限制记忆增长，并对每个动作的缓冲区进行上限以控制增长。
将基于 VAE 的表征作为捕捉变异的显著因素并改进距离度量的手段（关于 VAE 的附录）。

实验结果

研究问题

RQ1模型无关的 episodic control 是否能够通过重复利用高回报经验而无需基于梯度的更新实现快速学习？
RQ2记忆规模、最近邻参数（k）和表征选择如何影响确定性和近似随机环境中的性能与泛化？
RQ3在状态很少被重新访问的更现实的 3D 环境中，episodic control 是否仍然有效？
RQ4简单的探索（epsilon-greedy）与 episodic memory 结合在数据效率方面的影响？

主要发现

在 Atari 游戏和 Labyrinth 关卡的初始学习阶段，episodic control 的学习速度明显快于最新的深度 RL 算法。
采用 k-NN 缓冲区和简单表征，该方法在早期学习阶段对多款游戏超越了 DQN、DQN with prioritized replay，以及 A3C。
在确定性 Atari 环境中，许多状态和动作被重复访问，使 episodic memory 得以有效利用（例如，重新遇到的状态占比 10-60%）。
在 Labyrinth 中，episodic control 实现了一次性学习，且在稀疏奖励的情境（Double-T-Maze）下可超越或迅速接近 A3C 的性能。
将 VAE 用于表征在 Labyrinth 中可提供泛化收益，较大的 k 提升最终性能；在 Atari 的结果则取决于任务结构，呈现混合情况。
简单的 epsilon-greedy 探索策略在与 episodic control 结合时即可实现快速学习。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。