Skip to main content
QUICK REVIEW

[논문 리뷰] Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms

Kaiqing Zhang, Zhuoran Yang|arXiv (Cornell University)|2019. 11. 24.
Innovation Diffusion and Forecasting인용 수 124
한 줄 요약

마르크프/스톡캐스틱 게임과 광범위형 게임의 두 프레임워크에 초점을 맞춘 MARL의 이론적 연구 조망으로, 수렴성, 복잡도 및 향후 연구를 위한 새로운 관점을 분석한다.

ABSTRACT

Recent years have witnessed significant advances in reinforcement learning (RL), which has registered great success in solving various sequential decision-making problems in machine learning. Most of the successful RL applications, e.g., the games of Go and Poker, robotics, and autonomous driving, involve the participation of more than one single agent, which naturally fall into the realm of multi-agent RL (MARL), a domain with a relatively long history, and has recently re-emerged due to advances in single-agent RL techniques. Though empirically successful, theoretical foundations for MARL are relatively lacking in the literature. In this chapter, we provide a selective overview of MARL, with focus on algorithms backed by theoretical analysis. More specifically, we review the theoretical results of MARL algorithms mainly within two representative frameworks, Markov/stochastic games and extensive-form games, in accordance with the types of tasks they address, i.e., fully cooperative, fully competitive, and a mix of the two. We also introduce several significant but challenging applications of these algorithms. Orthogonal to the existing reviews on MARL, we highlight several new angles and taxonomies of MARL theory, including learning in extensive-form games, decentralized MARL with networked agents, MARL in the mean-field regime, (non-)convergence of policy-based methods for learning in games, etc. Some of the new angles extrapolate from our own research endeavors and interests. Our overall goal with this chapter is, beyond providing an assessment of the current state of the field on the mark, to identify fruitful future research directions on theoretical studies of MARL. We expect this chapter to serve as continuing stimulus for researchers interested in working on this exciting while challenging topic.

연구 동기 및 목표

  • 대표적 프레임워크인 Markov/stochastic 게임과 extensive-form 게임 전반에 걸친 MARL의 이론적 기초를 명확히 한다.
  • 완전 협력, 완전 경쟁, 혼합 설정에서 수렴성 및 복잡도 분석과 함께 MARL 알고리즘을 정리한다.
  • 향후 연구와 응용을 이끄는 MARL 이론의 새로운 관점과 분류 체계를 강조한다.

제안 방법

  • Markov/stochastic 및 extensive-form 게임 프레임워크 내에서 이론적 보장을 갖춘 MARL 알고리즘을 검토하고 종합한다.
  • 비정상성, 공동 행동 공간, 정보 구조와 같은 도전 과제를 논의하고 이를 균형(평형) 개념과 연결한다.
  • 협력적, 경쟁적, 혼합 설정을 도입하고 비교하며, 학습 역학과 수렴에 대한 시사점을 제시한다.
  • 분산 MARL, 평균장 MARL, 광범위형 게임에서의 학습 등 확장 내용을 강조한다.]
  • research_questions:[

실험 결과

연구 질문

  • RQ1Markov/stochastic 및 extensive-form 게임 프레임워크에서 이론적 수렴성 및 복잡도 보장을 갖는 MARL 알고리즘은 무엇인가?
  • RQ2협력적, 경쟁적, 혼합 설정이 MARL의 학습 역학 및 균형 개념에 어떤 영향을 미치는가?
  • RQ3향후 이론 연구를 이끌어갈 MARL 이론의 새로운 관점과 분류 체계는 무엇인가?

주요 결과

  • 이 챕터는 프레임워크와 수렴 분석에 중점을 두고 MARL 이론과 알고리즘에 대한 선택적 개관을 제공한다.
  • 비정상성, 조합적 공동 행동 공간, 정보 구조 등 MARL에 공통적인 도전과제를 논의하고 이를 균형 개념과 연결한다.
  • 확장적으로 광범위형 게임, 분산 MARL, 평균장 MARL 및 제로합 게임에서의 정책 기반 방법의 수렴 여부에 대한 논의를 확장한다.
  • Nash 평형과 ε- Nash 평형을 Markov 및 광범위형 게임 MARL 설정의 중심 해법 개념으로 제시한다.
  • 협력적, 경쟁적, 혼합 설정을 구분하고 이들이 MGs 및 광범위형 게임에 어떻게 매핑되는지 보여주어 알고리즘 설계에 방향을 제시한다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.