QUICK REVIEW

[논문 리뷰] Multi-Agent Generative Adversarial Imitation Learning

Jiaming Song, Hongyu Ren|arXiv (Cornell University)|2018. 07. 26.

Reinforcement Learning in Robotics인용 수 94

한 줄 요약

MAIRL 및 MAGAIL를 프레이밍하여 다중 에이전트 마코프 게임에 Generative Adversarial Imitation Learning을 확장하고, 크로네커 팩터를 갖는 다중 에이전트 액터-크리틱을 도입하며, 복잡한 다중 에이전트 행동의 경험적 모방을 보여준다.

ABSTRACT

Imitation learning algorithms can be used to learn a policy from expert demonstrations without access to a reward signal. However, most existing approaches are not applicable in multi-agent settings due to the existence of multiple (Nash) equilibria and non-stationary environments. We propose a new framework for multi-agent imitation learning for general Markov games, where we build upon a generalized notion of inverse reinforcement learning. We further introduce a practical multi-agent actor-critic algorithm with good empirical performance. Our method can be used to imitate complex behaviors in high-dimensional environments with multiple cooperative or competing agents.

연구 동기 및 목표

다중 에이전트 설정에서의 비정상성 및 여러 Nash 균형으로 인해 모방 학습의 어려움을 해결한다.
협력적이거나 경쟁적인 에이전트를 가진 복잡한 행동을 모방할 수 있는 일반적인 다중 에이전트 IRL 프레임워크를 개발한다.
고차원 환경에서도 확장 가능한 실용적 알고리즘(MAGAIL 및 MACK)을 제안한다.
알려지지 않은 보상 하에서 학습된 정책이 전문가의 행동을 모방한다는 실증적 증거를 제시한다.

제안 방법

Nash 균형 제약 objective를 Lagrangian으로 재정의하여 Markov 게임에 IRL을 일반화하고, MAIRL를 도출한다.
전이 가능한 이중 최적화를 가능하게 하는 t-step TD 제약을 유도하고, 전문가와 학습자 간의 점유율(measures) 일치를 보장하는 MAIRL objective를 확립한다.
다중 에이전트 GAIL(MAGAIL)을 도입하여 각 에이전트가 전문가 궤적과 자신의 궤적을 구분하는 판별자를 가지도록 하여 학습 보상으로 작용한다.
중심화 학습-분산 실행과 Kronecker-팩터 자연 정책 경사(Kronecker-factored natural policy gradient)를 사용한 효율적인 실용적 다중 에이전트 액터-크리틱(MACK)을 제안한다.
공동 또는 협력적 환경에서의 판별기와 훈련을 맞춤화하기 위해 보상 구조(중심화, 분산화, 제로섬)에 대한 priors를 허용한다."

실험 결과

연구 질문

RQ1에이전트가 공유 환경에서 상호작용할 때 MAIRL이 기저 다중 에이전트 보상을 보여주는 데서 회수할 수 있는가?
RQ2Nash 균형과 높은 분산 그래디언트를 고려한 다중 에이전트 마코프 게임에서 확장 가능하고 안정적인 모방 목표를 어떻게 형성할 수 있는가?
RQ3협력적이고 경쟁적인 작업에서 다양한 보상 priors(중심화, 분산화, 제로섬)가 모방 성능에 어떤 영향을 미치는가?
RQ4실용적 MAGAIL 프레임워크가 협력적 및 적대적 설정에서 복잡하고 고차원적인 다중 에이전트 행동을 모방할 수 있는가?
RQ5MACK 알고리즘이 다중 에이전트 모방 학습에 대해 샘플 효율적이고 안정적인 최적화를 제공하는가?

주요 결과

MAGAIL 변형들(중심화, 분산화, 제로섬)은 협력적 입자 작업에서 행동 클로닝을 능가한다.
경쟁적 작업에서 분산화 및 제로섬 MAGAIL이 종종 중심화 MAGAIL 및 BC를 능가하며 보상 priors의 선택이 중요하다는 것을 시사한다.
협력 제어에서 열악한 전문가 시연에도 MAGAIL이 BC보다 이전으로 전이된 환경에서 더 높은 성공률로 적응할 수 있다.
Kronecker-factored natural policy gradient를 활용한 중심화 학습 및 분산 실행과 함께 제안된 MACK 알고리즘은 실용적인 샘플 효율적 학습을 달성한다.
입자 환경에서의 실험은 학습된 정책이 협력 및 경쟁 상황 전반에서 알려지지 않은 실제 보상 구조 하의 전문가 행동을 모방함을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.