Skip to main content
QUICK REVIEW

[論文レビュー] Neural MMO: A Massively Multiagent Game Environment for Training and Evaluating Intelligent Agents

Joseph Suárez, Yilun Du|arXiv (Cornell University)|Mar 2, 2019
Reinforcement Learning in Robotics参考文献 20被引用数 48
ひとこと要約

Neural MMO は、ニューラルエージェントが強化学習を通じて生存を学ぶ、持続的で手続き的に生成される大規模マルチエージェント環境を提示し、より大きな集団の方が探索とニッチ形成を促進することを示しています。

ABSTRACT

The emergence of complex life on Earth is often attributed to the arms race that ensued from a huge number of organisms all competing for finite resources. We present an artificial intelligence research environment, inspired by the human game genre of MMORPGs (Massively Multiplayer Online Role-Playing Games, a.k.a. MMOs), that aims to simulate this setting in microcosm. As with MMORPGs and the real world alike, our environment is persistent and supports a large and variable number of agents. Our environment is well suited to the study of large-scale multiagent interaction: it requires that agents learn robust combat and navigation policies in the presence of large populations attempting to do the same. Baseline experiments reveal that population size magnifies and incentivizes the development of skillful behaviors and results in agents that outcompete agents trained in smaller populations. We further show that the policies of agents with unshared weights naturally diverge to fill different niches in order to avoid competition.

研究の動機と目的

  • 知能エージェントを訓練するための、MMORPGに触発された持続的でスケーラブルなマルチエージェント環境を導入する。
  • 資源競争の下で出現する行動を研究するため、種の数が異なる大規模な集団を可能にする。
  • 集団の規模と種の多様性が探索、専門化、ポリシー学習に及ぼす影響を示す。

提案手法

  • エージェントはタイルベースの手続き的に生成されたマップ上で、餌と水の採餌、戦略的な戦闘システムを備えて動作する。
  • ポリシーはポリシー勾配法で訓練されたニューラルネットワークであり、集団間で重みを共有する場合と共有しない場合がある。
  • 観測はマップの局所的な抜粋で、タイルタイプやエージェント属性を含む。行動には移動と攻撃の選択が含まれる。
  • 報酬信号は生存時間で、1ティックあたりの単位報酬の割引和として計算される。
  • 実験では複数のワールドインスタンスとサーバー統合を用いて、人口設定全体のパフォーマンスを評価する。

実験結果

リサーチクエスチョン

  • RQ1持続的なマルチエージェント環境において、同時に動作するエージェントの数を増やすことは探索とポリシー学習にどのような影響を与えるか?
  • RQ2重みを共有しない独立した集団の数は、ニッチ形成と専門化にどのように影響するか?
  • RQ3競争下での学習済みポリシーに対して、環境のランダム化とトーナメント形式の評価が及ぼす影響は何か?
  • RQ4大規模な集団で訓練されたポリシーは、統合されて多様なエージェントベースと対戦評価された場合に一般化するか?

主な発見

  • より大きな集団規模は、トーナメントにおいて一貫してエージェントの生存期間を改善する。
  • 集団規模は探索を拡大させ、地図全体の訪問を促進する。
  • 重みを共有しない複数の集団は、地図全体でニッチ形成と専門化を促進する。
  • エージェントは他のエージェントのポリシーや位置に依存する依存関係と戦略を学習する。
  • 戦闘はエージェント間の強い結合を生み出し、出現的挙動と頑健なポリシーをさらに推進する。

より良い研究を、今すぐ始めましょう

論文設計から論文執筆まで、研究時間を劇的に削減しましょう。

クレジットカード登録不要

このレビューはAIが作成し、人間の編集者が確認しました。