QUICK REVIEW

[논문 리뷰] Neural MMO: A Massively Multiagent Game Environment for Training and Evaluating Intelligent Agents

Joseph Suárez, Yilun Du|arXiv (Cornell University)|2019. 03. 02.

Reinforcement Learning in Robotics참고 문헌 20인용 수 48

한 줄 요약

Neural MMO는 신경망 에이전트가 강화학습을 통해 생존을 학습하는 지속적이고 절차적으로 생성된 대규모 다에이전트 환경을 제시하며, 더 큰 개체군이 탐색과 틈새 형성을 촉진한다는 것을 보여준다.

ABSTRACT

The emergence of complex life on Earth is often attributed to the arms race that ensued from a huge number of organisms all competing for finite resources. We present an artificial intelligence research environment, inspired by the human game genre of MMORPGs (Massively Multiplayer Online Role-Playing Games, a.k.a. MMOs), that aims to simulate this setting in microcosm. As with MMORPGs and the real world alike, our environment is persistent and supports a large and variable number of agents. Our environment is well suited to the study of large-scale multiagent interaction: it requires that agents learn robust combat and navigation policies in the presence of large populations attempting to do the same. Baseline experiments reveal that population size magnifies and incentivizes the development of skillful behaviors and results in agents that outcompete agents trained in smaller populations. We further show that the policies of agents with unshared weights naturally diverge to fill different niches in order to avoid competition.

연구 동기 및 목표

지능형 에이전트를 훈련시키기 위해 MMORPG에서 영감을 받은 지속적이고 확장 가능한 다에이전트 환경을 소개한다.
자원을 놓고 경쟁하는 상황에서 출현하는 행동을 연구하기 위해 서로 다른 종 수를 가진 대규모 개체군을 가능하게 한다.
개체군 크기와 종 다양성이 탐색, 전문화 및 정책 학습에 어떤 영향을 주는지 보여준다.

제안 방법

에이전트는 타일 기반의 절차적으로 생성된 지도에서 식량과 물 수집과 전략적 전투 시스템을 포함해 작동한다.
정책은 정책 기울기 방법으로 학습된 신경망이며, 개체군 간에 공유되거나 비공유된 가중치를 가진다.
관측은 타일 유형 및 에이전트 속성 등 환경의 지역적 표본이며; 행동은 이동과 공격 선택을 포함한다.
보상 신호는 생존 시간이며, 매 틱마다 단위 보상의 할인 합으로 계산된다.
실험은 다수의 월드 인스턴스와 서버 병합을 사용하여 인구 설정 간의 성능을 평가한다.

실험 결과

연구 질문

RQ1동시 에이전트 수를 증가시키는 것이 지속적 다에이전트 환경에서 탐색과 정책 학습에 어떤 영향을 미치는가?
RQ2비공유 가중치를 가진 서로 다른 개체군의 수가 틈새 형성과 전문화에 어떤 영향을 미치는가?
RQ3환경 무작위화와 토너먼트 스타일 평가가 경쟁하에 학습된 정책에 미치는 영향은 무엇인가?
RQ4더 큰 개체군으로 학습된 정책이 다른 에이전트 기반에 대해 병합되고 평가될 때 일반화되는가?

주요 결과

더 큰 개체군 크기가 토너먼트에서 에이전트의 수명을 일관되게 향상시킨다.
개체군 크기가 탐색을 확대하여 더 넓은 맵 방문을 촉진한다.
비공유 가중치를 가진 더 많은 개체군이 맵 전반에 걸쳐 틈새 형성과 전문화를 촉진한다.
에이전트는 다른 에이전트의 정책과 위치에 의존하는 의존성 및 전략을 학습한다.
전투는 에이전트 간의 강한 결합을 추가하여 출현하는 행동과 견고한 정책을 더욱 촉진한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.