[논문 리뷰] Multi-Agent Generative Adversarial Imitation Learning
MAIRL 및 MAGAIL를 프레이밍하여 다중 에이전트 마코프 게임에 Generative Adversarial Imitation Learning을 확장하고, 크로네커 팩터를 갖는 다중 에이전트 액터-크리틱을 도입하며, 복잡한 다중 에이전트 행동의 경험적 모방을 보여준다.
Imitation learning algorithms can be used to learn a policy from expert demonstrations without access to a reward signal. However, most existing approaches are not applicable in multi-agent settings due to the existence of multiple (Nash) equilibria and non-stationary environments. We propose a new framework for multi-agent imitation learning for general Markov games, where we build upon a generalized notion of inverse reinforcement learning. We further introduce a practical multi-agent actor-critic algorithm with good empirical performance. Our method can be used to imitate complex behaviors in high-dimensional environments with multiple cooperative or competing agents.
연구 동기 및 목표
- 다중 에이전트 설정에서의 비정상성 및 여러 Nash 균형으로 인해 모방 학습의 어려움을 해결한다.
- 협력적이거나 경쟁적인 에이전트를 가진 복잡한 행동을 모방할 수 있는 일반적인 다중 에이전트 IRL 프레임워크를 개발한다.
- 고차원 환경에서도 확장 가능한 실용적 알고리즘(MAGAIL 및 MACK)을 제안한다.
- 알려지지 않은 보상 하에서 학습된 정책이 전문가의 행동을 모방한다는 실증적 증거를 제시한다.
제안 방법
- Nash 균형 제약 objective를 Lagrangian으로 재정의하여 Markov 게임에 IRL을 일반화하고, MAIRL를 도출한다.
- 전이 가능한 이중 최적화를 가능하게 하는 t-step TD 제약을 유도하고, 전문가와 학습자 간의 점유율(measures) 일치를 보장하는 MAIRL objective를 확립한다.
- 다중 에이전트 GAIL(MAGAIL)을 도입하여 각 에이전트가 전문가 궤적과 자신의 궤적을 구분하는 판별자를 가지도록 하여 학습 보상으로 작용한다.
- 중심화 학습-분산 실행과 Kronecker-팩터 자연 정책 경사(Kronecker-factored natural policy gradient)를 사용한 효율적인 실용적 다중 에이전트 액터-크리틱(MACK)을 제안한다.
- 공동 또는 협력적 환경에서의 판별기와 훈련을 맞춤화하기 위해 보상 구조(중심화, 분산화, 제로섬)에 대한 priors를 허용한다."
실험 결과
연구 질문
- RQ1에이전트가 공유 환경에서 상호작용할 때 MAIRL이 기저 다중 에이전트 보상을 보여주는 데서 회수할 수 있는가?
- RQ2Nash 균형과 높은 분산 그래디언트를 고려한 다중 에이전트 마코프 게임에서 확장 가능하고 안정적인 모방 목표를 어떻게 형성할 수 있는가?
- RQ3협력적이고 경쟁적인 작업에서 다양한 보상 priors(중심화, 분산화, 제로섬)가 모방 성능에 어떤 영향을 미치는가?
- RQ4실용적 MAGAIL 프레임워크가 협력적 및 적대적 설정에서 복잡하고 고차원적인 다중 에이전트 행동을 모방할 수 있는가?
- RQ5MACK 알고리즘이 다중 에이전트 모방 학습에 대해 샘플 효율적이고 안정적인 최적화를 제공하는가?
주요 결과
- MAGAIL 변형들(중심화, 분산화, 제로섬)은 협력적 입자 작업에서 행동 클로닝을 능가한다.
- 경쟁적 작업에서 분산화 및 제로섬 MAGAIL이 종종 중심화 MAGAIL 및 BC를 능가하며 보상 priors의 선택이 중요하다는 것을 시사한다.
- 협력 제어에서 열악한 전문가 시연에도 MAGAIL이 BC보다 이전으로 전이된 환경에서 더 높은 성공률로 적응할 수 있다.
- Kronecker-factored natural policy gradient를 활용한 중심화 학습 및 분산 실행과 함께 제안된 MACK 알고리즘은 실용적인 샘플 효율적 학습을 달성한다.
- 입자 환경에서의 실험은 학습된 정책이 협력 및 경쟁 상황 전반에서 알려지지 않은 실제 보상 구조 하의 전문가 행동을 모방함을 보여준다.
더 나은 연구,지금 바로 시작하세요
연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.
카드 등록 없음 · 무료 플랜 제공
이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.