QUICK REVIEW
[论文解读] Playing Atari with Deep Reinforcement Learning
Volodymyr Mnih, Koray Kavukcuoglu|arXiv (Cornell University)|Dec 19, 2013
Reinforcement Learning in Robotics参考文献 29被引用 5,113
一句话总结
本文提出一个深度Q网络(DQN),通过经验回放和Q学习的变体,从原始像素输入学习玩Atari 2600游戏,在大多数游戏中达到最先进的结果。
ABSTRACT
We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input using reinforcement learning. The model is a convolutional neural network, trained with a variant of Q-learning, whose input is raw pixels and whose output is a value function estimating future rewards. We apply our method to seven Atari 2600 games from the Arcade Learning Environment, with no adjustment of the architecture or learning algorithm. We find that it outperforms all previous approaches on six of the games and surpasses a human expert on three of them.
研究动机与目标
- 证明一个深度卷积神经网络能够直接从高维视觉输入学习控制策略。
- 开发并稳定一个基于经验回放的深度Q学习算法,用于从原始像素进行强化学习。
- 在多款Atari 2600游戏上使用单一架构进行评估,并且不进行游戏特定的工程设计。
- 展示该方法在若干游戏上超越先前的RL方法,接近或超越人类表现。
提出的方法
- 使用卷积神经网络(Q网络)从原始屏幕帧近似动作价值函数 Q(s,a;θ)。
- 应用带有目标 y = r + γ max_a' Q(s',a';θ−) 的Q学习变体以及随机梯度下降。
- 通过将转移 (s,a,r,s') 存储在大型回放记忆库中并抽取小批量样本进行更新来引入经验回放。
- 通过将输入帧灰度化、下采样至 84x84,并将最近的 4 帧堆叠作为网络输入进行预处理。
- 采用一个输入为 4D 的 84x84x4 的架构,包含两层卷积层(16x8x8,步幅 4;32x4x4,步幅 2)和一个 256 单元的全连接层,随后为每个动作设置一个输出单元。
- 使用 RMSProp 进行训练,采用epsilon-greedy 探索,并应用帧跳过以提高训练效率。
实验结果
研究问题
- RQ1单一的深度神经网络架构是否能够仅使用原始像素输入及奖励信号来学习玩一系列 Atari 2600 游戏?
- RQ2将经验回放纳入是否能够在高维视觉领域实现稳定且数据高效的深度Q学习?
- RQ3在多种游戏中,深度Q网络相对于先前的强化学习方法和人类玩家的表现如何,且不进行游戏特定特征工程?
主要发现
| 随机 | Sarsa [3] | 应变策略 [4] | DQN | 人类 | HNeat Best [8] | HNeat Pixel [8] | DQN Best |
|---|---|---|---|---|---|---|---|
| 354 | 1.2 | 0 | -20.4 | 157 | 110 | 179 | |
| 996 | 5.2 | 129 | -19 | 614 | 665 | 271 | |
| 1743 | 6 | 159 | -17 | 960 | 723 | 268 | |
| 4092 | 168 | 470 | 20 | 1952 | 1705 | 581 | |
| 7456 | 31 | 368 | -3 | 18900 | 28010 | 3690 | |
| 3616 | 52 | 106 | 19 | 1800 | 920 | 1720 | |
| 1332 | 4 | 91 | -16 | 1325 | 800 | 1145 | |
| 5184 | 225 | 661 | 21 | 4500 | 1740 | 1075 |
- 在测试的七款Atari游戏中,DQN在六款上超越了所有先前报告的RL方法。
- 在七款游戏中的三款上,DQN超过了人类专家。
- 在不使用手工特征的情况下,使用单一架构和超参数跨游戏仍取得了强劲结果。
- 经验回放和离策略Q学习有助于提高大规模神经网络在强化学习中的数据效率和训练稳定性。
- 训练进展可以通过Q值预测来监控,其上升比单段奖励更为平滑。
- 该方法能够直接从原始像素输入学习,以产生具有竞争力的游戏策略。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。