Skip to main content
QUICK REVIEW

[논문 리뷰] Scalable Multi-Agent Reinforcement Learning for Networked Systems with Average Reward

Guannan Qu, Yiheng Lin|arXiv (Cornell University)|2020. 06. 11.
Reinforcement Learning in Robotics참고 문헌 37인용 수 23
한 줄 요약

이 논문은 평균 보상 기반 네트워크 시스템에서 국소적 상호작용과 지수 감쇠 성질을 활용하여 다중 에이전트 강화학습을 위한 확장 가능한 액터-크리틱(SAC) 방법을 제안한다. 유한한 상호작용 강도 조건 하에서 먼 거리에 있는 에이전트의 영향력이 지수적으로 감쇠됨을 증명함으로써, 국소적 이웃 크기와 비례하는 복잡도를 가지며 $O(\rho^{\kappa+1})$-근사값을 갖는 이중 시간 척도 액터-크리틱 알고리즘을 실현한다.

ABSTRACT

It has long been recognized that multi-agent reinforcement learning (MARL) faces significant scalability issues due to the fact that the size of the state and action spaces are exponentially large in the number of agents. In this paper, we identify a rich class of networked MARL problems where the model exhibits a local dependence structure that allows it to be solved in a scalable manner. Specifically, we propose a Scalable Actor-Critic (SAC) method that can learn a near optimal localized policy for optimizing the average reward with complexity scaling with the state-action space size of local neighborhoods, as opposed to the entire network. Our result centers around identifying and exploiting an exponential decay property that ensures the effect of agents on each other decays exponentially fast in their graph distance.

연구 동기 및 목표

  • 전역 상태 및 행동 공간이 기하급수적으로 증가하는 문제로 인해 다중 에이전트 강화학습(MARL)의 확장성에 도전하는 문제를 해결한다.
  • 통신 및 큐잉 네트워크와 같은 네트워크 시스템에서 더 자연스러운 평균 보상 목표를 갖는 MARL에서 효율적인 학습을 가능하게 한다.
  • 에이전트 영향력이 그래프 거리에 따라 지수적으로 감쇠하는 조건을 규명함으로써 평균 보상 MARL의 증명 가능한 확장성을 확립한다.
  • 에이전트의 정책을 국소적 이웃 크기만에 비례하는 복잡도로 학습할 수 있는 이중 시간 척도 액터-크리틱 알고리즘을 개발한다.
  • 무선 다중 액세스 통신 프로토콜 설계 환경에서 제안된 방법의 효과성을 입증한다.

제안 방법

  • 네트워크 시스템 내 국소적 상호작용을 활용하여 국소 정책을 학습하는 확장 가능한 액터-크리틱(SAC) 방법을 제안한다.
  • 유한한 상호작용 강도 조건 하에서 에이전트 영향력이 그래프 거리에 따라 지수적으로 감쇠됨을 보여주는 성질을 활용한다.
  • 정책 및 가치 함수 업데이트에 별도의 학습률을 사용하는 이중 시간 척도 액터-크리틱 프레임워크를 활용하여 평균 보상 목표를 최적화한다.
  • 새로운 MDP 편향 결과를 적용하여 국소 상태 변화가 먼 거리의 에이전트 상태 분포에 미치는 영향이 점점 감소함을 증명한다.
  • 각 에이전트의 행동이 오직 자신의 국소 상태와 이웃 상태에 의존하도록 정책 파arameterization을 설계하여 확장성을 확보한다.
  • 각 에이전트의 Q-값이 오직 자신의 국소 상태-행동 및 이웃 에이전트의 행동에 의존하도록 국소 가치 함수 근사치를 설계한다.

실험 결과

연구 질문

  • RQ1최악의 경우 비가역성에도 불구하고 평균 보상 MARL 설정에서 에이전트 영향력의 지수 감쇠를 입증할 수 있는가?
  • RQ2지수 감쇠 성질이 존재할 경우, 전역 상태-행동 공간이 아닌 국소 이웃 크기만에 비례하는 복잡도로 평균 보상 MARL에서 확장 가능한 학습이 가능한가?
  • RQ3이중 시간 척도 액터-크리틱 알고리즘이 평균 보상 목표 하에서 근사 최적의 국소 정책을 달성할 수 있는가?
  • RQ4실제 네트워크 시스템에서 제안된 방법이 기준 프로토콜 대비 어떻게 성능을 발휘하는가?
  • RQ5상호작용 강도에 대해 어떤 조건이 평균 보상 MARL에서 지수 감쇠 성질의 타당성을 보장하는가?

주요 결과

  • 논문은 상호작용 강도가 유한할 경우, 평균 보상 설정에서도 에이전트 상호작용의 영향력이 그래프 거리에 따라 지수적으로 감쇠됨을 증명한다.
  • 제안된 확장 가능한 액터-크리틱(SAC) 방법은 평균 보상 목표 함수의 정적점에 대해 $O(\rho^{\kappa+1})$-근사값을 달성한다.
  • 알고리즘의 계산 복잡도는 전역 상태-행동 공간이 아닌 가장 큰 $\kappa$-호프 이웃의 크기만에 비례하므로 확장성이 보장된다.
  • 5×5 무선 네트워크에서의 수치 실험 결과, 전송 확률을 알지 못하는 상황에서도 SAC 방법이 벤치마크 ALOHA 기반 프로토콜을 능가하는 성능을 보였다.
  • 임의로 생성된 문제 인스턴스에서 지수 감쇠 성질이 높은 확률로 성립함을 확인하여 방법의 강건성을 검증하였다.
  • 새로운 MDP 편향 결과는 국소 상태 변화가 먼 거리의 에이전트 상태 분포에 미치는 영향이 점점 감소함을 입증하며, 이는 지수 감쇠 성질의 기초를 다진다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.