QUICK REVIEW

[논문 리뷰] Emergent Coordination Through Competition

Siqi Liu, Guy Lever|arXiv (Cornell University)|2019. 02. 19.

Sports Analytics and Performance인용 수 56

한 줄 요약

본 논문은 competitive 2v2 MuJoCo 축구 환경에서 강화학습 에이전트 간 협력적 행동이 어떻게 등장하는지, population-based training with co-play 및 decomposed reward shaping를 사용하여 평가하고, 비정해 벤치마크를 평가하기 위해 Nash averaging으로 평가한다.

ABSTRACT

We study the emergence of cooperative behaviors in reinforcement learning agents by introducing a challenging competitive multi-agent soccer environment with continuous simulated physics. We demonstrate that decentralized, population-based training with co-play can lead to a progression in agents' behaviors: from random, to simple ball chasing, and finally showing evidence of cooperation. Our study highlights several of the challenges encountered in large scale multi-agent training in continuous control. In particular, we demonstrate that the automatic optimization of simple shaping rewards, not themselves conducive to co-operative behavior, can lead to long-horizon team behavior. We further apply an evaluation scheme, grounded by game theoretic principals, that can assess agent performance in the absence of pre-defined evaluation tasks or human baselines.

연구 동기 및 목표

MARL에서 경쟁적 다중 에이전트 환경을 통해 협력적 행동이 어떻게 나타날 수 있는지 조사한다.
독립 학습자들의 개체군에 대해 co-play를 활용한 분산형 population-based training 프레임워크를 개발하고 검증한다.
장기적이고 팀 지향적인 행동을 장려하기 위해 보상 형상화 및 decomposed discount를 탐구한다.
사전 정의된 작업이나 인간 기준선에 의존하지 않는 평가 방법을 게임 이론 원리로 제시한다.
연속 제어를 가진 대규모 다중 에이전트 학습의 도전 과제를 분석한다.

제안 방법

연속 물리학(MuJoCo)을 갖춘 2v2 축구 환경을 사용해 다중 에이전트 상호작용을 연구한다.
co-play를 통한 population-based training(PBT)으로 독립 학습자들의 개체군에서 정책을 진화시킨다.
다중 에이전트 설정에서 가치 함수를 추정하기 위해 재귀적 비평가를 갖춘 SVG0(stochastic value gradients)을 적용한다.
탐색 및 크레딧 할당을 촉진하기 위해 여러 형상 채널로 보상을 분해하고 각 채널에 서로 다른 discount를 적용한다.
PBT 적합 신호를 통해 온라인으로 shaping 보상 가중치를 최적화해 단기적 형상화에서 장기적 팀 보상으로의 전환을 가능하게 한다.
부분 관찰에 대한 의존성과 emergent 협력을 분석하기 위한 대체 정책 발산(counterfactual policy divergence) 방법을 도입한다.

실험 결과

연구 질문

RQ1co-play가 있는 분산형 PBT가 경쟁적 다중 에이전트 축구 도메인에서 emergent cooperative behaviors를 낳을 수 있는가?
RQ2형상 보상과 분해된 할인율이 시간이 지남에 따라 협력 전략의 등장에 어떤 영향을 미치는가?
RQ3비전이적이고 경쟁적인 MARL 설정에서 인간 기준선 없이도 에이전트 성능을 견고하게 평가할 수 있는 평가 체계는 무엇인가?
RQ4리샤드에 대한 기억 및 재발생이 PBT 기반 MARL 프레임워크의 가치 추정 및 학습에 어떤 영향을 미치는가?
RQ5대규모 연속 제어 MARL에서의 실용적 도전 과제와 exploitable 징후는 무엇인가?

주요 결과

에이전트는 무작위 행동에서 시작해 간단한 공 차기로 발전하고, 마지막으로 패스 모티프와 팀 인지로 구별되는 협력적 플레이를 보인다.
co-play 및 보상 형상을 포함한 population-based training은 장기적 팀 목표를 향한 형상 보상의 자동 최적화를 가능하게 한다.
서로 다른 할인율을 가진 분리된 보상 채널은 개인 학습을 팀 목표에 맞추는 데 도움을 주고 시간이 지남에 따라 적응시킨다.
대체 정책 발산(counterfactual policy divergence)은 팀원 관찰에 대한 의존도가 증가하고 협력적 행동이 진화하고 있음을 드러낸다.
Nash-averaging 평가는 비전이성과 에이전트 간의 다양성을 Elo 랭킹만으로 포착하지 못하는 점을 강조한다.
Critics의 재발생은 다양한 상대에 대한 일반화를 향상시키지만, 일부 설정에서는 feedforward 정책에 비해 성능이 떨어질 수 있다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.