Skip to main content
QUICK REVIEW

[논문 리뷰] Emergent Complexity via Multi-Agent Competition

Trapit Bansal, Jakub Pachocki|arXiv (Cornell University)|2017. 10. 10.
Reinforcement Learning in Robotics참고 문헌 31인용 수 146
한 줄 요약

논문은 경쟁적 다중 에이전트 환경에서의 자기학습(self-play)이 간단한 3D 물리적 과제에서 매우 복잡한 행동을 생성할 수 있음을 보여주며, 이는 대규모 GPU에서의 분산 PPO 학습 프레임워크와 탐색 커리큘럼, 그리고 상대 샘플링 전략을 통해 가능해진다.

ABSTRACT

Reinforcement learning algorithms can train agents that solve problems in complex, interesting environments. Normally, the complexity of the trained agent is closely related to the complexity of the environment. This suggests that a highly capable agent requires a complex environment for training. In this paper, we point out that a competitive multi-agent environment trained with self-play can produce behaviors that are far more complex than the environment itself. We also point out that such environments come with a natural curriculum, because for any skill level, an environment full of agents of this level will have the right level of difficulty. This work introduces several competitive multi-agent environments where agents compete in a 3D world with simulated physics. The trained agents learn a wide variety of complex and interesting skills, even though the environment themselves are relatively simple. The skills include behaviors such as running, blocking, ducking, tackling, fooling opponents, kicking, and defending using both arms and legs. A highlight of the learned behaviors can be found here: https://goo.gl/eR7fbX

연구 동기 및 목표

  • 경쟁적 다중 에이전트 자기학습이 환경 그 자체의 복잡성을 넘어선 복잡한 행동을 생성할 수 있는지에 대한 동기를 제시한다.
  • 간단한 규칙과 물리 law를 갖는 네 가지 경쟁적 3D 환경을 소개한다.
  • 비슷한 기술 수준의 상대와의 학습에서 자연스러운 커리큘럼이 형성된다는 것을 보여준다.
  • 희소 보상 하에서 학습을 촉진하는 탐색 커리큘럼의 효과를 보인다.

제안 방법

  • 대규모 롤아웃을 다중 GPU에 걸쳐 분산 학습 구성에서 Proximal Policy Optimization(PPO)을 사용한다.
  • 네 가지 과제에서 두 개의 3D 에이전트 본체(개미형과 휴머노이드)를 활용한다: Run to Goal, You Shall Not Pass, Sumo, Kick and Defend.
  • 훈련 중에도 조밀한 탐색 보상을 0으로 냉각시키는 탐색 커리큘럼을 도입한다.
  • 자연스러운 오래된 상대 샘플링을 적용하여 자기학습 학습 안정성과 빠른 불균형의 피회를 방지한다.
  • 필요한 경우 비대칭 게임에 대해 clipped PPO 목표와 함께 GAE를 사용하고 별도의 정책을 학습한다.

실험 결과

연구 질문

  • RQ1경쟁적 다중 에이전트 환경에서의 자기학습이 환경의 고유한 복잡성을 넘어선 발현된 복잡한 행동을 이끌어낼 수 있는가?
  • RQ2탐색 커리큘럼이 희소 보상 하에서 학습 효율을 향상시키고 비평화로운 모터 기술의 발견을 가능하게 하는가?
  • RQ3어떤 학습 전략(예: 상대 샘플링, 무작위화의 커리큘럼)이 경쟁적 3D 과제에서 강인한 정책을 만들어내는가?
  • RQ4학습된 정책이 비에피소드적 조건이나 교란 조건으로의 전이(강건성 테스트)에 어떻게 작용하는가?

주요 결과

  • 경쟁형 다중 에이전트 학습은 차단, 회피, 태클, 차기, 수비 등 다양한 발현 기술을 이끌어낸다.
  • 희소 보상 하에서 학습하기 위해 탐색 커리큘럼이 결정적으로 작용하며 샘플 효율을 높인다.
  • 임의로 샘플링된 더 오래된 상대에 대해 학습하면 학습이 안정되고 지속적 향상을 도모한다.
  • 다양한 정책을 결합해 앙상블하는 것이 특히 휴머노이드 에이전트의 경우 단일 정책 자기학습보다 강건성을 높일 수 있다.
  • 환경 매개변수의 무작위화 커리큘럼은 초기 학습 진도를 손상시키지 않으면서 정책의 일반화를 돕는다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.