QUICK REVIEW

[论文解读] Measuring Intelligence through Games

Tom Schaul, Julian Togelius|arXiv (Cornell University)|Sep 6, 2011

Artificial Intelligence in Games参考文献 25被引用 41

一句话总结

本文通过使用游戏描述语言（GDL）在多样化、采样的游戏集合上评估智能体，提出了一种实用的通用人工智能（AGI）测量基准。该方法将Legg和Hutter的通用智能度量扩展至有限计算资源的场景，通过长度与资源加权的GDL字符串采样，构建出一种可扩展、可随时计算的通用游戏智能度量。

ABSTRACT

Artificial general intelligence (AGI) refers to research aimed at tackling the full problem of artificial intelligence, that is, create truly intelligent agents. This sets it apart from most AI research which aims at solving relatively narrow domains, such as character recognition, motion planning, or increasing player satisfaction in games. But how do we know when an agent is truly intelligent? A common point of reference in the AGI community is Legg and Hutter's formal definition of universal intelligence, which has the appeal of simplicity and generality but is unfortunately incomputable. Games of various kinds are commonly used as benchmarks for "narrow" AI research, as they are considered to have many important properties. We argue that many of these properties carry over to the testing of general intelligence as well. We then sketch how such testing could practically be carried out. The central part of this sketch is an extension of universal intelligence to deal with finite time, and the use of sampling of the space of games expressed in a suitably biased game description language.

研究动机与目标

为解决当前缺乏一种通用且实用的AGI测量基准的问题，使不同方法之间的AGI评估具有可比性。
将Legg和Hutter的不可计算通用智能度量转化为一种有限、资源感知且可近似的框架，适用于现实世界测试。
论证游戏作为通用智能的理想测试平台，因其结构多样性，能够有效探测规划、学习和适应等核心认知能力。
提出一种通过有偏游戏描述语言（GDL）对游戏空间进行采样的方法，确保广泛覆盖的同时保持计算可行性。
推动开发通用AI竞赛，使智能体不仅在已知游戏中受测，还能通过交互与探索在未见过的、随机采样的游戏中接受评估。

提出的方法

通过引入有限时间和计算资源约束，扩展通用智能度量，将原本不可计算的定义转化为实用的、可随时计算的度量。
使用GDL字符串的长度加权采样，表示并采样所有可能游戏的空间，优先选择更简单、更易压缩的游戏描述。
采用基于资源的加权策略，优先选择计算上可行且与智能测试相关的游戏，平衡多样性与可行性。
使用游戏引擎解释器执行采样的GDL描述，生成可用于智能体评估的可玩游戏环境。
设计基准时，要求智能体通过与未知游戏的交互来学习和适应，而非依赖预设的游戏规则。
引入时间预算机制，使智能体必须在训练和评估阶段之间进行权衡，以反映AGI系统在现实世界中的资源限制。

实验结果

研究问题

RQ1如何将不可计算的通用智能度量转化为一种实用的、有限的、可近似的AGI评估基准？
RQ2为何游戏特别适合作为测试通用智能的基准领域？其何种特性使其能够有效探测广泛的认知能力？
RQ3如何系统性地从游戏描述语言中采样代表性且多样化的游戏集合，以确保涵盖关键的智能揭示场景？
RQ4所提出的基准在多大程度上能够测试人类类似的核心认知技能，如直觉、创造力和战略规划？
RQ5如何有意义地将时间与计算等资源约束整合进通用智能度量中，以反映现实世界中的限制？

主要发现

所提出的框架成功地将理论上理想但不可计算的通用智能度量转化为一种实用的、可随时计算的基准，通过引入有限时间和资源约束。
对游戏描述语言（GDL）字符串进行长度与资源加权采样，实现了对可能游戏空间的可扩展且具代表性的采样，确保多样性的同时保持计算可行性。
该基准支持智能体在未见过的游戏上进行评估，通过交互实现，促进真正的泛化与学习，而非基于规则的解析或硬编码策略。
该方法通过允许将3D游戏引擎集成到GDL解释器中，支持虚拟具身，使智能体能够处理高维感官输入，并在复杂环境中控制身体。
该方法为现有竞赛（如斯坦福通用游戏竞赛）提供了原则性的理论基础，同时解决了其在理论依据不足和缺乏真正基于探索的评估方面的局限。
该框架被证明能隐式测试人类类似认知能力，如直觉与创造力，因为智能体必须通过经验发现有效策略，而非依赖预编程知识。

更好的研究，从现在开始

从论文设计到论文写作，大幅缩短您的研究时间。

无需绑定信用卡

本解读由 AI 生成，并经人工编辑审核。