Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-agent Reinforcement Learning in Sequential Social Dilemmas

Joel Z. Leibo, Vinícius Zambaldi|arXiv (Cornell University)|2017. 02. 10.
Evolutionary Game Theory and Cooperation참고 문헌 40인용 수 274
한 줄 요약

순차적 사회적 딜레마(SSDs)를 시간적으로 확장된 마르코프 게임으로 정의하고, 독립적인 딥 Q-학습 에이전트들이 Gathering과 Wolfpack의 두 환경에서 협력 혹은 기만을 학습하는 방식을 연구하며, 환경 요인이 협력적 행동에 미치는 영향과 MGSD 모델과의 차이를 강조한다.

ABSTRACT

Matrix games like Prisoner's Dilemma have guided research on social dilemmas for decades. However, they necessarily treat the choice to cooperate or defect as an atomic action. In real-world social dilemmas these choices are temporally extended. Cooperativeness is a property that applies to policies, not elementary actions. We introduce sequential social dilemmas that share the mixed incentive structure of matrix game social dilemmas but also require agents to learn policies that implement their strategic intentions. We analyze the dynamics of policies learned by multiple self-interested independent learning agents, each using its own deep Q-network, on two Markov games we introduce here: 1. a fruit Gathering game and 2. a Wolfpack hunting game. We characterize how learned behavior in each domain changes as a function of environmental factors including resource abundance. Our experiments show how conflict can emerge from competition over shared resources and shed light on how the sequential nature of real world social dilemmas affects cooperation.

연구 동기 및 목표

  • 순차적 사회적 딜레마(SSDs)를 도입하여 시간적으로 확장된 협력/기만을 포착한다.
  • SSDs가 MGSD의 혼합 인센티브를 보존하면서도 정책 수준의 협력이 필요함을 보여준다.
  • 환경 요인(자원 풍부성, 갈등 비용)이 학습된 행동에 어떤 영향을 미치는지 분석한다.
  • 독립 학습 에이전트가 MGSD 모델과 비교해 다른 협력 동역학을 드러냄을 보여준다.

제안 방법

  • SSDs를 협력/기만 정책의 결과가 경험적 보상 행렬을 형성하는 부분 관측 가능성을 가진 마르코프 게임으로 정의한다.
  • Emergent behavior를 연구하기 위해 두 개의 2-인원 부분 관측 가능 마르코프 게임(Gathering, Wolfpack)을 사용한다.
  • epsilon-greedy 탐색과 재생 버퍼를 이용한 독립적 딥 Q-네트워크(DQN) 학습자로 정책을 학습시킨다.
  • 협력 및 기만 정책을 샘플링하여 경험적 게임 이론 분석(EGTA)으로 경험적 보상 매트릭스를 계산한다.
  • 협력의 효과를 관찰하기 위해 환경 매개변수(사과 풍부성, 태그 지속 시간, 포획 반경, 팀 보상)를 조작한다.
  • 다른 에이전트를 환경의 일부로 취급하여 상대 에이전트의 학습을 처방적으로 모델링하지 않는다.

실험 결과

연구 질문

  • RQ1환경 요인이 SSD에서 협력 정책과 기만 정책의 출현에 어떤 영향을 미치는가?
  • RQ2독립적 딥 RL로 학습될 때 SSD가 MGSD와 비교해 질적으로 다른 역동성 및 균형점을 보이는가?
  • RQ3자원 및 상호 작용 비용의 차이에 따라 어떤 이질적 협력 전략이 등장하는가?
  • RQ4에이전트 아키텍처와 학습 매개변수가 기만 혹은 협력 경향에 어떤 영향을 미치는가?

주요 결과

  • 환경의 희소성 및 더 높은 갈등 비용이 Gathering에서 더 공격적이고 기만적인 정책을 촉진한다.
  • Wolfpack에서 더 큰 집단 이익과 더 큰 포획 반경은 다중 에이전트의 협력적 사냥 행동을 증가시킨다.
  • 이 SSD들에서의 경험적 보상 매트릭스는 종종 죄수의 딜레마 보상을 반영하지만, SSD 관점은 Gathering과 Wolfpack 사이의 뚜렷한 게임 구조를 드러낸다.
  • 네트워크 크기가 증가하면 Wolfpack에서 협력을 증가시키고 Gathering에서 기만을 증가시키는 경향이 있어 인지 능력의 작업 의존적 영향을 보여준다.
  • SSD 분석은 MGSD 모델로는 포착되지 않는 조정 및 구현의 복잡성을 드러낸다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.