[论文解读] Mastering Atari Games with Limited Data
EfficientZero 是一个基于模型的视觉强化学习方法,建立在 MuZero 之上,通过自监督一致性、端到端价值前缀预测以及离策略价值校正,在仅有 2 小时真实游戏的情况下在 Atari 100k 实现超越人类的表现。
Reinforcement learning has achieved great success in many applications. However, sample efficiency remains a key challenge, with prominent methods requiring millions (or even billions) of environment steps to train. Recently, there has been significant progress in sample efficient image-based RL algorithms; however, consistent human-level performance on the Atari game benchmark remains an elusive goal. We propose a sample efficient model-based visual RL algorithm built on MuZero, which we name EfficientZero. Our method achieves 194.3% mean human performance and 109.0% median performance on the Atari 100k benchmark with only two hours of real-time game experience and outperforms the state SAC in some tasks on the DMControl 100k benchmark. This is the first time an algorithm achieves super-human performance on Atari games with such little data. EfficientZero's performance is also close to DQN's performance at 200 million frames while we consume 500 times less data. EfficientZero's low sample complexity and high performance can bring RL closer to real-world applicability. We implement our algorithm in an easy-to-understand manner and it is available at https://github.com/YeWR/EfficientZero. We hope it will accelerate the research of MCTS-based RL algorithms in the wider community.
研究动机与目标
- 激励图像基础强化学习在样本效率方面的高需求,特别是对需要有限交互的真实世界任务。
- 开发一种基于模型的强化学习方法,在提升数据效率的同时,在 Atari 100k 和 DMControl 100k 基准上保持高性能。
- 确定并解决受限数据条件下基于模型的强化学习的关键瓶颈(模型监督、状态混淆、离策略价值目标)。
- 提出架构与训练方面的创新以克服这些瓶颈,并展示相较于先前方法的经验提升。
提出的方法
- 引入 EfficientZero,建立在 MuZero 之上,具有三个关键修改:自监督时序一致性以学习鲁棒的环境模型、端到端预测价值前缀以减轻累积误差、以及基于模型的离策略校正以使目标与当前策略对齐。
- 使用基于 SimSiam 的自监督一致性损失,在经过学习的状态转移后对相邻观测进行,展开5步,以监督动力学。
- 使用 LSTM 预测价值前缀,输入一系列展开的潜在状态,以在蒙特卡洛树搜索中稳定长范围价值估计。
- 通过对较旧轨迹重新想象短期奖励并从相应状态重新运行 MCTS 以获得纠正后的根值来应用离策略校正。
- 保留 MuZero 的核心组件(表示、动力学、奖励、价值、策略头)但以新增的监督信号和校正机制进行训练。
- 在 Atari 100k(26 个游戏)和 DMControl 100k(低维任务)上评估以评估样本效率和性能。
实验结果
研究问题
- RQ1基于模型、以 MCTS 为驱动的 RL 算法是否能以仅 100k 环境步(约 2 小时游玩)在 Atari 上达到超人类表现?
- RQ2自监督时序一致性、端到端价值前缀预测以及基于模型的离策略校正是否能在图像化强化学习中显著提升数据效率和性能?
- RQ3EfficientZero 与 Atari 100k 与 DMControl 100k 基准上的最先进数据高效基线相比如何?
- RQ4在数据受限情形下,哪些组件对改进贡献最大(一致性、价值前缀、离策略校正)?
主要发现
| 游戏 | 随机 | 人类 | SimPLe | OTRainbow | CURL | DrQ | SPR | MuZero | EfficientZero |
|---|---|---|---|---|---|---|---|---|---|
| Alien | 227.8 | 7127.7 | 616.9 | 824.7 | 558.2 | 771.2 | 801.5 | 530.0 | 808.5 |
| Amidar | 5.8 | 1719.5 | 88.0 | 82.8 | 142.1 | 102.8 | 176.3 | 38.8 | 148.6 |
| Assault | 222.4 | 742.0 | 527.2 | 351.9 | 600.6 | 452.4 | 571.0 | 500.1 | 1263.1 |
| Asterix | 210.0 | 8503.3 | 1128.3 | 628.5 | 734.5 | 603.5 | 977.8 | 1734.0 | 25557.8 |
| Bank Heist | 14.2 | 753.1 | 34.2 | 182.1 | 131.6 | 168.9 | 380.9 | 192.5 | 351.0 |
| BattleZone | 2360.0 | 37187.5 | 5184.4 | 4060.6 | 14870.0 | 12954.0 | 16651.0 | 7687.5 | 13871.2 |
| Boxing | 0.1 | 12.1 | 9.1 | 2.5 | 1.2 | 6.0 | 35.8 | 15.1 | 52.7 |
| ChopperCmd | 811.0 | 7387.8 | 1246.9 | 1033.3 | 1058.5 | 780.3 | 974.8 | 1350.0 | 1117.3 |
| Crazy Climber | 10780.5 | 35829.4 | 62583.6 | 21327.8 | 12146.5 | 20516.5 | 42923.6 | 56937.0 | 83940.2 |
| Demon Attack | 152.1 | 1971.0 | 208.1 | 711.8 | 817.6 | 1113.4 | 545.2 | 3527.0 | 13003.9 |
| Freeway | 0.0 | 29.6 | 20.3 | 25.0 | 26.7 | 9.8 | 24.4 | 21.8 | 21.8 |
| Frostbite | 65.2 | 4334.7 | 254.7 | 231.6 | 1181.3 | 331.1 | 1821.5 | 255.0 | 296.3 |
| Gopher | 257.6 | 2412.5 | 771.0 | 778.0 | 669.3 | 636.3 | 715.2 | 1256.0 | 3260.3 |
| Hero | 1027.0 | 30826.4 | 2656.6 | 6458.8 | 6279.3 | 3736.3 | 7019.2 | 3095.0 | 9315.9 |
| Jamesbond | 29.0 | 302.8 | 125.3 | 112.3 | 471.0 | 236.0 | 365.4 | 87.5 | 517.0 |
| Kangaroo | 52.0 | 3035.0 | 323.1 | 605.4 | 872.5 | 940.6 | 3276.4 | 62.5 | 724.1 |
| Krull | 1598.0 | 2665.5 | 4539.9 | 3277.9 | 4229.6 | 4018.1 | 3688.9 | 4890.8 | 5663.3 |
| Kung Fu Master | 258.5 | 22736.3 | 17257.2 | 5722.2 | 14307.8 | 9111.0 | 13192.7 | 18813.0 | 30944.8 |
| Ms Pacman | 307.3 | 6951.6 | 1480.0 | 941.9 | 1465.5 | 960.5 | 1313.2 | 1265.6 | 1281.2 |
| Pong | -20.7 | 14.6 | 12.8 | 1.3 | -16.5 | -8.5 | -5.9 | -6.7 | 20.1 |
| Private Eye | 24.9 | 69571.3 | 58.3 | 100.0 | 218.4 | -13.6 | 124.0 | 56.3 | 96.7 |
| Qbert | 163.9 | 13455.0 | 1288.8 | 509.3 | 1042.4 | 854.4 | 669.1 | 3952.0 | 13781.9 |
| Road Runner | 11.5 | 7845.0 | 5640.6 | 2696.7 | 5661.0 | 8895.1 | 14220.5 | 2500.0 | 17751.3 |
| Seaquest | 68.4 | 42054.7 | 683.3 | 286.9 | 384.5 | 301.2 | 583.1 | 208.0 | 1100.2 |
| Up N Down | 533.4 | 11693.2 | 3350.3 | 2847.6 | 2955.2 | 3180.8 | 28138.5 | 2896.9 | 17264.2 |
- EfficientZero 在 Atari 100k 上实现了 194.3% 的均值和 109.0% 的中位数人类归一化性能,仅使用 2 小时的实时游戏。
- 在 26 个 Atari 游戏中,EfficientZero 在均值方面超越之前的最先进方法(SPR)170%,在中位数人类归一化分数上超越180%。
- 在 Atari 100k 上,EfficientZero 在若干游戏中超越先前的最先进方法,在均值和中位数指标上达到超人类表现。
- 在 DMControl 100k 上,EfficientZero 获得最先进结果,并达到或超越在真实状态上运行的 SAC 基线。
- 消融研究表明去除三项提议组件中的任意一项都会降低性能,其中自监督一致性导致的下降最大,验证其在数据受限环境中的关键作用。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。