QUICK REVIEW

[논문 리뷰] Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning

Barna Pásztor, Ilija Bogunovic|arXiv (Cornell University)|2021. 07. 08.

Gaussian Processes and Bayesian Inference참고 문헌 69인용 수 6

한 줄 요약

이 논문은 알려지지 않은 연속 상태, 연속 행동 시스템에서 대규모 동일한 에이전트 집단을 가진 환경에서 탐색과 이용을 효율적으로 균형 잡는 모델 기반 다중 에이전트 평균장 강화학습 알고리즘인 M3-UCRL을 제안한다. 새로운 평균장 분석을 통해 증명 가능한 낮은 손실을 달성하며, 시뮬레이터 없이 실제 상호작용으로부터 동역학을 학습하는 경우에도 군집 운동 및 혼잡도 인식 항법 작업에서 거의 최적의 성능을 보인다.

ABSTRACT

Learning in multi-agent systems is highly challenging due to several factors including the non-stationarity introduced by agents' interactions and the combinatorial nature of their state and action spaces. In particular, we consider the Mean-Field Control (MFC) problem which assumes an asymptotically infinite population of identical agents that aim to collaboratively maximize the collective reward. In many cases, solutions of an MFC problem are good approximations for large systems, hence, efficient learning for MFC is valuable for the analogous discrete agent setting with many agents. Specifically, we focus on the case of unknown system dynamics where the goal is to simultaneously optimize for the rewards and learn from experience. We propose an efficient model-based reinforcement learning algorithm, $M^3-UCRL$, that runs in episodes, balances between exploration and exploitation during policy learning, and provably solves this problem. Our main theoretical contributions are the first general regret bounds for model-based reinforcement learning for MFC, obtained via a novel mean-field type analysis. To learn the system's dynamics, $M^3-UCRL$ can be instantiated with various statistical models, e.g., neural networks or Gaussian Processes. Moreover, we provide a practical parametrization of the core optimization problem that facilitates gradient-based optimization techniques when combined with differentiable dynamics approximation methods such as neural networks.

연구 동기 및 목표

대규모 상호작용하는 에이전트 집단으로 인한 비정적이고 확장성 문제를 해결한다.
알려지지 않은 시스템 동역학을 가진 평균장 제어(MFC) 문제를 위한 샘플 효율적이고 모델 기반의 강화학습 알고리즘을 개발한다.
시뮬레이터나 알려진 동역학에 의존하지 않고 실제 상호작용을 통해 온라인 정책 학습을 가능하게 한다.
평균장 유형 분석을 사용한 모델 기반 MFC에 대해 새로운 손실 한계를 통해 이론적 보장을 제공한다.
신경망과 같은 딥러닝 모델과 호환되는 실용적이고 미분 가능한 프레임워크를 설계한다.

제안 방법

상한 신뢰도를 사용하여 탐색과 이용을 균형 잡는 에피소드 기반 모델 기반 강화학습 알고리즘인 M3-UCRL을 제안한다.
개별 에이전트가 아닌 에이전트 상태 분포를 기반으로 시스템 동역학과 보상을 평균장 근사로 모델링한다.
온라인 상호작용 데이터로부터 알려지지 않은 시스템 동역학을 학습하기 위해 통계 모델(예: 신경망 또는 가우시안 프로세스)을 사용한다.
핵심 최적화 문제의 미분 가능한 파arametrization을 적용하여 신경망 기반 동역학 모델과 함께 기울기 기반 정책 학습을 가능하게 한다.
평균장 유형 이론 분석을 통해 모델 기반 MFC에 대한 새로운 손실 한계를 유도하며, 에이전트 수와 무관하게 적용된다.
학습된 동역학에 대한 신뢰구간을 활용한 낙관적 탐색을 통해 효율적인 탐색과 수렴을 보장한다.

실험 결과

연구 질문

RQ1알려지지 않은 동역학을 가진 다중 에이전트 평균장 제어에서 모델 기반 강화학습 알고리즘이 증명 가능한 낮은 손실을 달성할 수 있는가?
RQ2연속 상태 및 행동 공간을 가진 대규모 다중 에이전트 시스템에서 탐색과 이용을 효과적으로 균형 잡을 수 있는가?
RQ3실제 상호작용에서 학습된 동역학 모델이 MFC 문제에서 거의 최적의 정책으로 수렴하는 데 얼마나 기여할 수 있는가?
RQ4혼잡도 효과와 같은 다양한 동역학 복잡성과 초기 평균장 분포의 변화에 대해 알고리즘은 어떻게 성능을 보이는가?
RQ5시간 이산화가 연속 시간 해석적 해와 비교해 학습된 정책의 최적성에 어떤 영향을 미치는가?

주요 결과

M3-UCRL은 표준 및 혼잡도 인식 항법 작업 모두에서 소수의 에피소드 내에 거의 최적의 정책으로 수렴한다.
진짜 동역학이 알려진 경우를 기준으로 한 성능과 거의 동일한 에피소드 보상을 달성하며, 성능의 변동이 미미하다.
혼잡도 인식 설정에서 단 16개의 타임스텝 후에도 M3-UCRL이 유도하는 평균장 분포가 알려진 동역학 하의 최적 분포와 매우 유사하다.
균일분포 및 정규분포와 같은 다양한 초기 평균장 분포에 대해 M3-UCRL은 강건하게 작동하며, 빠르게 안정적이고 고보상 상태로 유도한다.
M3-UCRL이 학습한 정책는 알려진 동역학 하에서 얻은 정책와 거의 동일하여, 복잡한 동역학을 효과적으로 학습하고 이용할 수 있음을 확인한다.
시간 이산화로 인한 연속 시간 최적해에서의 편차에도 불구하고 알고리즘이 강건하게 성능을 유지하여 모델링 근사에 대한 저항성을 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.