QUICK REVIEW

[論文レビュー] The Arcade Learning Environment: An Evaluation Platform for General Agents

Marc G. Bellemare, Yavar Naddaf|Jul 19, 2012

Artificial Intelligence in Games参考文献 26被引用数 193

ひとこと要約

本論文は、エミュレートされたAtari 2600ゲームを用いて一般化AIエージェントを評価する強化学習ベンチマークプラットフォームであるArcade Learning Environment（ALE）を紹介する。55種類以上のゲームを通じて標準化されたインターフェースを提供することで、ドメインに依存しないきめ細やかな評価を可能にし、エージェントが一部のゲームで学習した後、未学習のゲームに対しても測定可能な性能で一般化できることを示している。これにより、一般化AI開発のスケーラブルなテストベッドが確立された。

ABSTRACT

In this article we introduce the Arcade Learning Environment (ALE): both a challenge problem and a platform and methodology for evaluating the development of general, domain-independent AI technology. ALE provides an interface to hundreds of Atari 2600 game environments, each one different, interesting, and designed to be a challenge for human players. ALE presents significant research challenges for reinforcement learning, model learning, model-based planning, imitation learning, transfer learning, and intrinsic motivation. Most importantly, it provides a rigorous testbed for evaluating and comparing approaches to these problems. We illustrate the promise of ALE by developing and benchmarking domain-independent agents designed using well-established AI techniques for both reinforcement learning and planning. In doing so, we also propose an evaluation methodology made possible by ALE, reporting empirical results on over 55 different games. All of the software, including the benchmark agents, is publicly available.

研究の動機と目的

多様な環境において一般化AIエージェントを評価するための標準化され、ドメインに依存しないベンチマークを確立すること。
過去の評価におけるメソッド論的欠陥を是正するため、エージェントを一部のゲームで学習させ、未学習のゲームでテストすることで過学習を防ぐこと。
強化学習、計画、模倣学習の手法を比較可能なスケーラブルで公開可能なプラットフォームを提供すること。
現実世界の複雑性を有する挑戦的でアクセス可能なテストベッドを提供することで、汎用AIの開発を促進すること。
標準的なAI技術を用いて、ドメインに依存しないエージェントが広範なAtari 2600ゲームで測定可能な性能を達成できることを示すこと。

提案手法

ALEはStellaエミュレータに基づき、Atari 2600のROMにアクセスし、ゲーム状態、行動、報酬、終了条件を抽出するソフトウェアインターフェースを提供する。
各ゲームは、スクリーン画素とRAMからの観測、およびジョイスティック入力へのマッピングを伴うマークフ・決定過程（MDP）として定式化される。
学習／テスト分割が適用される：エージェントは固定された5つのゲーム（例：Asterix, BeamRider, Freeway, Seaquest, SpaceInvaders）でチューニングされ、55以上もの未学習のゲームで評価される。
評価手法は、未学習のゲームに対して一度だけテストを実施することで、評価後におけるアルゴリズムの改変を防ぎ、公平な比較を保証する。
標準的な強化学習（例：Q学習）および計画法（例：UCTを用いたモンテカルロツリー探索）を用いてドメインに依存しないエージェントが開発される。
性能は、各ゲームごとに複数のランダムシードとエピソードを用いた平均的人間正規化スコアで測定される。

実験結果

リサーチクエスチョン

RQ1ドメインに依存しない強化学習エージェントは、多様なAtari 2600ゲームで一貫した性能を達成できるか？
RQ2モデルベース探索を用いた計画ベースエージェントは、未学習のAtariゲームにどの程度一般化できるか？
RQ3少数のゲームで学習したエージェントの性能は、より広範な未学習ゲーム群への一般化をどの程度予測できるか？
RQ41つのエージェントアーキテクチャが、ドメイン固有のチューニングなしに複数のゲームジャンルで競争力のある性能を達成できるか？
RQ5標準的な強化学習と計画法の相対的性能は、統一的かつクロスゲームのベンチマーク下でどのように評価されるか？

主な発見

ALEプラットフォームは、55種類以上のAtari 2600ゲームにおいて、一般エージェントの一貫性があり再現可能な評価を可能にし、すべてのソフトウェアとベンチマークエージェントが公開されている。
強化学習エージェントは、55ゲーム中8つで平均的人間正規化スコアが100％を超える成績を示し、『Kung-Fu Master』では19,000を上回り、『Video Pinball』では20,000に達する最高スコアを記録した。
モンテカルロツリー探索（UCT）を用いた計画エージェントは、55ゲーム中45ゲームでベースライン手法を上回り、最良のUCTエージェントは『Video Pinball』で254,748のスコアを記録した。
学習／テスト分割の手法により、過学習が防止され、5つのゲームで学習したエージェントが未学習の環境に対しても測定可能な性能で一般化した。
モンテズマのレヴィン（Montezuma’s Revenge）は依然として大きな挑戦であり、最良のエージェントでもわずか10.7点にとどまり、報酬が疎らで長時間にわたるタスクの難易度を示している。
このベンチマークは、統一的かつきめ細やかなフレームワーク下で評価された場合、標準的な強化学習および計画手法ですら、多様なゲームジャンルで強力な性能を発揮できることを明らかにした。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。