QUICK REVIEW

[論文レビュー] DeepMind Lab

Charles Beattie, Joel Z. Leibo|arXiv (Cornell University)|Dec 12, 2016

Artificial Intelligence in Games被引用数 40

ひとこと要約

DeepMind Lab は、Quake III Arena エンジンに基づいて構築された3次元ファーストパーソン強化学習プラットフォームであり、視覚的に豊かで物理的に現実的な環境を通じて一般人工知能の研究を目的としている。エージェントが柔軟なAPIを介してRGB、RGBD、および速度観測を用いてナビゲーション、計画、ビジュオモーター制御を学習できる。84×84解像度でGPU上で最大996.6 FPSのフレームレートを達成している。

ABSTRACT

DeepMind Lab is a first-person 3D game platform designed for research and development of general artificial intelligence and machine learning systems. DeepMind Lab can be used to study how autonomous artificial agents may learn complex tasks in large, partially observed, and visually diverse worlds. DeepMind Lab has a simple and flexible API enabling creative task-designs and novel AI-designs to be explored and quickly iterated upon. It is powered by a fast and widely recognised game engine, and tailored for effective use by the research community.

研究の動機と目的

視覚的および物理的に複雑な世界において、一般人工知能エージェントを訓練するためのスケーラブルで高パフォーマンスな3次元環境を構築すること。
Atari やより柔軟性に欠ける3次元プラットフォームのような2次元環境の制限を克服し、ファーストパーソンの3次元ナビゲーションと細かい制御を可能にすること。
部分的に観測可能で動的な環境において、エージェントが探索と自己教師付き目的を通じて学習する自律的エージェントの開発を支援すること。
革新的な強化学習アルゴリズムおよびタスク設計の迅速なプロトタイピングを促進する研究プラットフォームを提供すること。
豊富なセンサ入力と現実的な物理法則を備えたプラットフォームにおいて、一般化、計画、ビジュオモーター連携のベンチマークを可能にすること。

提案手法

オープンソースの ioquake3 エンジンを基盤とし、多様な3次元環境を生成するためのカスタムアセットおよびレベル生成ツール（q3map2、bspc）を備えている。
エージェントのファーストパーソン視点から得られる生のRGBおよびRGBD（ピixe単位の深度情報付き）観測に加え、オプションの速度信号および報酬信号を提供している。
3次元移動（前進/後退、横移動、しゃがみ、ジャンプ）、3次元視線制御（上下、左右）、および特定のゲームモードにおけるタグ付けを含む、包括的なアクション空間をサポートしている。
環境がエージェントの1回の行動ごとに1ステップずつ進むロックステップ型のシミュレーションループを採用しており、決定論的で高精度な強化学習訓練を可能にしている。
Python API を提供し、RLフレームワークへのシームレスな統合を可能にし、step、reset、観測取得関数を通じたエージェントとのインタラクションを実現している。
従来の Quake III Arena マップファイル（.pk3）に加え、迅速なプロトタイピングとカスタマイズが可能な人間が読みやすいテキストベースのレベル定義形式もサポートしている。

実験結果

リサーチクエスチョン

RQ1エージェントは、部分的に観測可能で視覚的に豊かな3次元環境において、ナビゲーション、オブジェクト収集、戦略的行動といった複雑で長時間にわたるタスクを学習できるか？
RQ2複雑な視覚入力を持つ3次元ファーストパーソンプラットフォームにおいて、補助的学習目的および非同期的ディープ強化学習手法の有効性はどの程度か？
RQ3生成されたプロシージャルな3次元環境において、最小限の教師信号でエージェントがどの程度一般化できるか？
RQ4深度および速度観測の導入が、ビジュオモーター制御タスクにおける学習効率とポリシー性能にどのように寄与するか？
RQ5豊かな3次元世界において、自己学習的探索と内発的動機付けを通じて、一般用途向け知能の開発をこのプラットフォームが支援できるか？

主な発見

nav_maze_static_01 レベルにおいて、84×84解像度でGPU上で最大996.6 FPSのフレームレートを達成しており、高い計算効率を示している。
同じ条件下でRGBD観測に切り替えるとフレームレートが995.8 FPSに低下するが、深度センシングがプラットフォーム内で計算的に実現可能であることを示している。
320×240解像度では、nav_maze_static_01 レベルでGPU上でのRGB観測で950.0 FPS、RGBD観測で784.7 FPSに低下するが、解像度に応じたスケーラビリティが確認された。
lt_space_bounce_hard レベルでは、84×84解像度でCPU上866.0 FPS、GPU上850.3 FPSを達成しており、多様なタスクタイプにわたる一貫性あるパフォーマンスが裏付けられている。
このプラットフォームは、すでに強化学習分野における重要な進展を実現しており、非同期手法（Mnih et al., 2016）や自己教師付き補助タスク（Jaderberg et al., 2016）の開発を可能にした。
ヘッドレス動作およびリモート実行をサポートしており、非対話的かつ分散型コンピューティング環境でも高パフォーマンスな訓練が可能である。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。