QUICK REVIEW

[논문 리뷰] Modeling Others using Oneself in Multi-Agent Reinforcement Learning

Roberta Răileanu, Emily Denton|arXiv (Cornell University)|2018. 02. 26.

Reinforcement Learning in Robotics참고 문헌 32인용 수 68

한 줄 요약

SOM은 자신의 정책을 사용해 상대의 행동을 예측함으로써 온라인에서 상대 에이전트의 숨겨진 목표를 모델링하고, 협력적 및 적대적 두 선수 마코프 게임에서 정책 학습을 향상시킵니다.

ABSTRACT

We consider the multi-agent reinforcement learning setting with imperfect information in which each agent is trying to maximize its own utility. The reward function depends on the hidden state (or goal) of both agents, so the agents must infer the other players' hidden goals from their observed behavior in order to solve the tasks. We propose a new approach for learning in these domains: Self Other-Modeling (SOM), in which an agent uses its own policy to predict the other agent's actions and update its belief of their hidden state in an online manner. We evaluate this approach on three different tasks and show that the agents are able to learn better policies using their estimate of the other players' hidden states, in both cooperative and adversarial settings.

연구 동기 및 목표

불완전 정보 다중 에이전트 강화학습에서 다른 에이전트의 의도를 추론하게 하는 동기를 부여한다.
다른 에이전트의 숨겨진 목표를 온라인으로 추론하기 위해 Self Other-Modeling(SOM)을 도입한다.
다른 에이전트의 명시적 모델을 사용하는 것이 더 나은 정책을 산출함을 시연한다.
Mazebase 환경에서 협력적 및 적대적 과제 전반에 걸친 SOM의 효과를 보여준다.

제안 방법

에이전트는 자신의 상태, 자신의 목표, 그리고 다른 에이전트 목표의 추정치를 주면 정책과 가치를 출력하는 신경망 f를 사용한다.
공유 매개변수를 갖는 두 네트워크를 유지한다: 행동용 f_self와 다른 에이전트의 목표를 추론하는 f_other로, 서로 다른 순서로 입력을 제공한다.
에이전트의 자체 정책을 사용해 이산 목표 변수 z_other를 최적화함으로써 상대의 목표를 추론하고, 미분 가능한 그래디언트를 가능하게 하는 Gumbel-Softmax를 사용한다.
에피소드에 걸쳐 A3C 기반 학습을 통해 θ_self를 업데이트하도록 추론 과정에 역전파한다.
게임 단계당 다수의 추론 단계를 사용해 z_other를 정교화하고 행동 선택을 개선한다.

실험 결과

연구 질문

RQ1관찰된 행동으로부터 에이전트가 다른 에이전트의 숨겨진 목표를 온라인에서 정확히 추론할 수 있는가?
RQ2다른 에이전트의 목표를 명시적으로 모델링하는 것이 환경만 이용하는 접근법에 비해 정책 학습을 향상시키는가?
RQ3SOM이 협력적 대적적 두 에이전트 설정에서 어떻게 작동하는가?
RQ4추론 단계 수가 목표 정확도와 최종 보상에 미치는 영향은 무엇인가?
RQ5다양한 협력/경쟁 역학을 가진 Mazebase 과제(Coin, Recipe, Door)에서 SOM이 robust한가?

주요 결과

SOM은 과제 전반에 걸쳐 상대 에이전트의 목표를 의미 있는 정확도로 온라인으로 추론할 수 있게 한다.
SOM은 다른 에이전트를 모델링하지 않거나 이를 암시적으로만 예측하는 기준선보다 여러 과제에서 우수하다.
Coin 게임에서 SOM은 목표를 추론하지 않는 기준선보다 더 높은 보상과 상대의 목표를 더 잘 활용한다.
Recipe 게임에서 SOM은 NOM, IPP, SPP를 크게 능가하고 적대적 설정에서 TOG의 상한 근사 성능에 근접한다.
Door 게임에서 SOM은 협력을 위해 상대의 목표를 추론하는 것을 학습하지만, 두 역할을 모두 학습해야 하므로 이득은 다소 보통이다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.