Skip to main content
QUICK REVIEW

[논문 리뷰] Emergent Coordination Through Competition

Siqi Liu, Guy Lever|arXiv (Cornell University)|2019. 02. 19.
Sports Analytics and Performance인용 수 56
한 줄 요약

본 논문은 competitive 2v2 MuJoCo 축구 환경에서 강화학습 에이전트 간 협력적 행동이 어떻게 등장하는지, population-based training with co-play 및 decomposed reward shaping를 사용하여 평가하고, 비정해 벤치마크를 평가하기 위해 Nash averaging으로 평가한다.

ABSTRACT

We study the emergence of cooperative behaviors in reinforcement learning agents by introducing a challenging competitive multi-agent soccer environment with continuous simulated physics. We demonstrate that decentralized, population-based training with co-play can lead to a progression in agents' behaviors: from random, to simple ball chasing, and finally showing evidence of cooperation. Our study highlights several of the challenges encountered in large scale multi-agent training in continuous control. In particular, we demonstrate that the automatic optimization of simple shaping rewards, not themselves conducive to co-operative behavior, can lead to long-horizon team behavior. We further apply an evaluation scheme, grounded by game theoretic principals, that can assess agent performance in the absence of pre-defined evaluation tasks or human baselines.

연구 동기 및 목표

  • MARL에서 경쟁적 다중 에이전트 환경을 통해 협력적 행동이 어떻게 나타날 수 있는지 조사한다.
  • 독립 학습자들의 개체군에 대해 co-play를 활용한 분산형 population-based training 프레임워크를 개발하고 검증한다.
  • 장기적이고 팀 지향적인 행동을 장려하기 위해 보상 형상화 및 decomposed discount를 탐구한다.
  • 사전 정의된 작업이나 인간 기준선에 의존하지 않는 평가 방법을 게임 이론 원리로 제시한다.
  • 연속 제어를 가진 대규모 다중 에이전트 학습의 도전 과제를 분석한다.

제안 방법

  • 연속 물리학(MuJoCo)을 갖춘 2v2 축구 환경을 사용해 다중 에이전트 상호작용을 연구한다.
  • co-play를 통한 population-based training(PBT)으로 독립 학습자들의 개체군에서 정책을 진화시킨다.
  • 다중 에이전트 설정에서 가치 함수를 추정하기 위해 재귀적 비평가를 갖춘 SVG0(stochastic value gradients)을 적용한다.
  • 탐색 및 크레딧 할당을 촉진하기 위해 여러 형상 채널로 보상을 분해하고 각 채널에 서로 다른 discount를 적용한다.
  • PBT 적합 신호를 통해 온라인으로 shaping 보상 가중치를 최적화해 단기적 형상화에서 장기적 팀 보상으로의 전환을 가능하게 한다.
  • 부분 관찰에 대한 의존성과 emergent 협력을 분석하기 위한 대체 정책 발산(counterfactual policy divergence) 방법을 도입한다.

실험 결과

연구 질문

  • RQ1co-play가 있는 분산형 PBT가 경쟁적 다중 에이전트 축구 도메인에서 emergent cooperative behaviors를 낳을 수 있는가?
  • RQ2형상 보상과 분해된 할인율이 시간이 지남에 따라 협력 전략의 등장에 어떤 영향을 미치는가?
  • RQ3비전이적이고 경쟁적인 MARL 설정에서 인간 기준선 없이도 에이전트 성능을 견고하게 평가할 수 있는 평가 체계는 무엇인가?
  • RQ4리샤드에 대한 기억 및 재발생이 PBT 기반 MARL 프레임워크의 가치 추정 및 학습에 어떤 영향을 미치는가?
  • RQ5대규모 연속 제어 MARL에서의 실용적 도전 과제와 exploitable 징후는 무엇인가?

주요 결과

  • 에이전트는 무작위 행동에서 시작해 간단한 공 차기로 발전하고, 마지막으로 패스 모티프와 팀 인지로 구별되는 협력적 플레이를 보인다.
  • co-play 및 보상 형상을 포함한 population-based training은 장기적 팀 목표를 향한 형상 보상의 자동 최적화를 가능하게 한다.
  • 서로 다른 할인율을 가진 분리된 보상 채널은 개인 학습을 팀 목표에 맞추는 데 도움을 주고 시간이 지남에 따라 적응시킨다.
  • 대체 정책 발산(counterfactual policy divergence)은 팀원 관찰에 대한 의존도가 증가하고 협력적 행동이 진화하고 있음을 드러낸다.
  • Nash-averaging 평가는 비전이성과 에이전트 간의 다양성을 Elo 랭킹만으로 포착하지 못하는 점을 강조한다.
  • Critics의 재발생은 다양한 상대에 대한 일반화를 향상시키지만, 일부 설정에서는 feedforward 정책에 비해 성능이 떨어질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.