QUICK REVIEW

[論文レビュー] Measuring Intelligence through Games

Tom Schaul, Julian Togelius|arXiv (Cornell University)|Sep 6, 2011

Artificial Intelligence in Games参考文献 25被引用数 41

ひとこと要約

本稿は、ゲーム記述言語（GDL）を用いて、多様でサンプリングされたゲームのセットを評価することで、人工汎用知能（AGI）を測定する実用的なベンチマークを提案する。LeggとHutterの普遍的知能尺度を、有限の計算リソースを組み込むことで拡張し、GDL文字列の長さおよびリソース重み付きサンプリングを用いて、スケーラブルでいつでも計算可能な一般ゲーム知能の尺度を構築する。

ABSTRACT

Artificial general intelligence (AGI) refers to research aimed at tackling the full problem of artificial intelligence, that is, create truly intelligent agents. This sets it apart from most AI research which aims at solving relatively narrow domains, such as character recognition, motion planning, or increasing player satisfaction in games. But how do we know when an agent is truly intelligent? A common point of reference in the AGI community is Legg and Hutter's formal definition of universal intelligence, which has the appeal of simplicity and generality but is unfortunately incomputable. Games of various kinds are commonly used as benchmarks for "narrow" AI research, as they are considered to have many important properties. We argue that many of these properties carry over to the testing of general intelligence as well. We then sketch how such testing could practically be carried out. The central part of this sketch is an extension of universal intelligence to deal with finite time, and the use of sampling of the space of games expressed in a suitably biased game description language.

研究の動機と目的

多様なアプローチに対して比較可能な形で、人工汎用知能（AGI）を測定する一般的で実用的なベンチマークの欠如に応えること。
計算不能なLeggとHutterの普遍的知能尺度を、有限でリソース認識可能かつ近似可能なフレームワークに適応させ、現実世界のテストに適したものにすること。
ゲームが構造的多様性を持ち、計画、学習、適応といったコアな認知的スキルを検証できるため、一般知能のための理想的なテストベッドであると主張すること。
偏りのあるゲーム記述言語（GDL）を用いたサンプリング法を提案し、広範なカバレッジを確保しながら計算的に実行可能であるように、ゲームの空間を体系的にサンプリングすること。
エージェントが既知のゲームだけでなく、未知のランダムに抽出されたゲームに対しても、相互作用と探索を通じて評価される一般AIコンペティションの開発を可能にすること。

提案手法

計算不能な定義を、有限時間および計算リソース制約を組み込むことで、実用的でいつでも計算可能な尺度に変換する。
GDLにおける文字列の長さ重み付きサンプリングを用い、すべての可能なゲームの空間を表現・サンプリングし、より単純で圧縮可能なゲーム記述を優遇する。
リソースに基づく重み付けを適用し、計算的に取り扱いやすく、知能テストに適したゲームを優先する。多様性と実行可能性のバランスを取る。
サンプリングされたGDL記述を実行するゲームエンジンインタプリタを用い、エージェント評価のためのプレイ可能なゲーム環境を生成する。
エージェントが事前に指定されたゲームルールに依存するのではなく、未知のゲームとの相互作用を通じて学習・適応する必要があるようにベンチマークを設計する。
エージェントが訓練段階と評価段階の両方をバランスさせる時間予算管理メカニズムを導入し、AGIシステムにおける現実世界のリソース制限を反映する。

実験結果

リサーチクエスチョン

RQ1計算不能な普遍的知能尺度を、実用的で有限かつ近似可能なAGI評価ベンチマークにどのように適応できるか？
RQ2なぜゲームが一般知能をテストするためのベンチマークドメインとして特に適しているのか？どのような特性が、広範な認知的能力を検証するのに理想的なのか？
RQ3ゲーム記述言語から、代表的で多様なゲームのセットを体系的にサンプリングするにはどうすればよいか？本質的な知能を露呈するシナリオをカバーするように保証するには？
RQ4提案されたベンチマークが、直感、創造性、戦略的計画といったコアな人間らしい認知的スキルをどの程度テストするのか？
RQ5時間や計算リソースといったリソース制約を、現実世界の制限を反映する一般知能尺度にどのように意味的に統合できるか？

主な発見

提案されたフレームワークは、有限時間およびリソース制約を組み込むことで、理論的に理想ではあるが計算不能な普遍的知能尺度を、実用的でいつでも計算可能なベンチマークに成功して変換した。
GDL文字列の長さおよびリソース重み付きサンプリングにより、可能なすべてのゲームの空間からのスケーラブルで代表的なサンプリングが可能となり、多様性を保ちつつ計算の実行可能性を維持する。
エージェントが未知のゲームに対して相互作用を通じて評価されることで、ルールベースの解析やハードコードされた戦略に依存するのではなく、真の一般化と学習を促進する。
仮想的自己同一化を可能にするために、3DゲームエンジンをGDLインタプリタに統合できるようにし、エージェントが高次元の感覚入力を処理し、複雑な環境で身体を制御できるようにする。
スタンフォード一般ゲームプレイコンペティションのような既存のコンペティションの理論的根拠を明確にし、理論的正当性の欠如や真の探索ベース評価の欠如という課題を解決する。
フレームワークは、エージェントが事前にプログラムされた知識に依存せず、経験を通じて効果的な戦略を発見する必要があることから、直感や創造性といった人間らしい認知機能を暗黙的にテストしていることが示された。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。