[论文解读] The Arcade Learning Environment: An Evaluation Platform for General Agents
本文介绍了雅典娜学习环境(Arcade Learning Environment, ALE),一个利用雅典娜2600游戏模拟器的强化学习基准平台,用于评估通用人工智能智能体。该平台通过在55种以上游戏中使用标准化接口,实现了严格且与领域无关的评估,证明了在部分游戏上训练的智能体能够对未见过的游戏实现可测量的泛化性能,从而为通用人工智能的发展提供了一个可扩展的测试平台。
In this article we introduce the Arcade Learning Environment (ALE): both a challenge problem and a platform and methodology for evaluating the development of general, domain-independent AI technology. ALE provides an interface to hundreds of Atari 2600 game environments, each one different, interesting, and designed to be a challenge for human players. ALE presents significant research challenges for reinforcement learning, model learning, model-based planning, imitation learning, transfer learning, and intrinsic motivation. Most importantly, it provides a rigorous testbed for evaluating and comparing approaches to these problems. We illustrate the promise of ALE by developing and benchmarking domain-independent agents designed using well-established AI techniques for both reinforcement learning and planning. In doing so, we also propose an evaluation methodology made possible by ALE, reporting empirical results on over 55 different games. All of the software, including the benchmark agents, is publicly available.
研究动机与目标
- 建立一个标准化的、与领域无关的基准,用于在多样化环境中评估通用人工智能智能体。
- 通过在部分游戏上训练并在未见游戏中测试的方法,解决以往评估中的方法论缺陷,防止过拟合。
- 提供一个可扩展的、公开可用的平台,用于比较强化学习、规划和模仿学习技术。
- 通过提供具有现实世界复杂性的具有挑战性但可访问的测试平台,促进通用人工智能的发展。
- 证明基于领域无关的方法可在广泛范围的雅典娜2600游戏中,通过成熟的人工智能技术实现可测量的性能表现。
提出的方法
- ALE基于Stella模拟器构建,提供软件接口以访问雅典娜2600 ROM 文件,并提取游戏状态、动作、奖励和终止条件。
- 每款游戏均被形式化为马尔可夫决策过程(MDP),其中观测值来自屏幕像素和RAM,动作映射为操纵杆输入。
- 采用训练/测试划分:智能体在固定五款游戏(如Asterix、BeamRider、Freeway、Seaquest、SpaceInvaders)上进行调优,并在55种以上未见过的游戏上进行评估。
- 评估方法强制对未见游戏进行一次性测试,防止评估后修改算法,确保公平比较。
- 通过标准强化学习(如Q-learning)和规划技术(如带UCT的蒙特卡洛树搜索)开发领域无关的智能体。
- 性能通过每款游戏在多个随机种子和回合下的平均人类归一化得分进行衡量。
实验结果
研究问题
- RQ1领域无关的强化学习智能体是否能在多样化的雅典娜2600游戏中实现一致的性能表现?
- RQ2基于规划的智能体在使用基于模型的搜索时,能在多大程度上泛化到未见过的雅典娜游戏?
- RQ3在少量游戏上训练的性能表现,能在多大程度上预测其在更广泛未见游戏集上的泛化能力?
- RQ4单一智能体架构是否能在无需领域特定调优的情况下,实现多种游戏类型中的竞争力表现?
- RQ5在标准化的、跨游戏的基准下评估时,标准强化学习与规划方法的相对性能如何?
主要发现
- ALE平台实现了对55种以上雅典娜2600游戏的通用智能体进行一致且可复现的评估,所有软件和基准智能体均公开可用。
- 强化学习智能体在55款游戏中的8款上实现了平均人类归一化得分超过100%,其中在《功夫大师》中最高得分超过19,000,在《视频弹珠台》中超过20,000。
- 使用蒙特卡洛树搜索(UCT)的规划智能体在55款游戏中的45款上优于基线方法,最佳UCT智能体在《视频弹珠台》中得分达到254,748。
- 训练/测试划分方法成功防止了过拟合,因为在五款游戏上训练的智能体能够以可测量的性能泛化到未见环境中。
- 《蒙特祖马的复仇》仍是重大挑战,最佳智能体仅得10.7分,凸显了稀疏奖励、长时程任务的难度。
- 该基准揭示,即使在标准强化学习与规划技术下,当在统一且严格的框架下评估时,也能在多样化游戏类型中实现强劲表现。
更好的研究,从现在开始
从论文设计到论文写作,大幅缩短您的研究时间。
无需绑定信用卡
本解读由 AI 生成,并经人工编辑审核。