QUICK REVIEW

[논문 리뷰] CM3: Cooperative Multi-goal Multi-stage Multi-agent Reinforcement Learning

Jiachen Yang, Alireza Nakhaei|arXiv (Cornell University)|2018. 09. 13.

Reinforcement Learning in Robotics참고 문헌 50인용 수 23

한 줄 요약

CM3는 협동적 다목표 다에이전트 강화학습 시스템을 위한 이단계 커리큘럼 강화학습 프레임워크를 제안한다. 먼저 단일 에이전트의 목표 달성을 사전 훈련한 후에 다에이전트 협업을 활성화한다. 지역화된 신용 할당을 위한 신용 함수를 도입하고, 함수 증강을 통해 단계 간 지식을 전이함으로써, 기준선 MARL 방법에 비해 탐색, 교통 조정 및 체커 벤치마크에서 훨씬 빠른 학습을 달성한다.

ABSTRACT

A variety of cooperative multi-agent control problems require agents to achieve individual goals while contributing to collective success. This multi-goal multi-agent setting poses difficulties for recent algorithms, which primarily target settings with a single global reward, due to two new challenges: efficient exploration for learning both individual goal attainment and cooperation for others' success, and credit-assignment for interactions between actions and goals of different agents. To address both challenges, we restructure the problem into a novel two-stage curriculum, in which single-agent goal attainment is learned prior to learning multi-agent cooperation, and we derive a new multi-goal multi-agent policy gradient with a credit function for localized credit assignment. We use a function augmentation scheme to bridge value and policy functions across the curriculum. The complete architecture, called CM3, learns significantly faster than direct adaptations of existing algorithms on three challenging multi-goal multi-agent problems: cooperative navigation in difficult formations, negotiating multi-vehicle lane changes in the SUMO traffic simulator, and strategic cooperation in a Checkers environment.

연구 동기 및 목표

협동적 다목표 다에이전트 강화학습에서 효율적 탐색을 달성하기 위해, 에이전트가 개인 목표 달성과 상호 협업을 균형 있게 고려해야 하는 과제를 해결한다.
다목표 MARL에서 행동이 여러 에이전트의 성공에 영향을 주므로 정교한 기여도 할당이 필요한, 신용 할당 문제를 해결한다.
고차원 상태 공간을 가진 복잡한 다에이전트 환경에서 샘플 효율성과 학습 속도를 향상시킨다.
단일 에이전트 정책을 커리큘럼 학습과 함수 증강을 통해 재사용함으로써 모듈식이고 확장 가능한 프레임워크를 개발한다.

제안 방법

CM3는 이단계 커리큘럼을 적용한다: 1단계에서는 액터-크리틱 네트워크를 사용해 개별 에이전트가 고립된 상태에서 자신의 목표를 달성하도록 훈련한다.
2단계에서는 사전 훈련된 정책으로 에이전트를 초기화하고 다에이전트 협업을 활성화하며, 탐색을 단일 에이전트 훈련의 사전 지식으로 유도한다.
함수 증강을 통해 1단계의 단일 에이전트 네트워크 아키텍처를 확장하여 2단계에서 다에이전트 관측치와 행동을 포함하도록 하여, 파라미터 재학습을 최소화한다.
1단계의 크리틱에서 유도된 새로운 신용 함수를 도입하여 행동-목표 쌍을 평가함으로써, 에이전트 간의 국소화된 신용 할당을 가능하게 한다.
이 신용 함수를 사용해 정책 기울기를 재정의함으로써, 다에이전트 환경에서의 신용 할당과 정책 갱신을 향상시킨다.
경험 재생과 타겟 네트워크를 사용하여 가치 기반 및 정책 기반 학습을 통합하고, 환경에 맞게 초모수를 최적화한다.

실험 결과

연구 질문

RQ1에이전트가 개인 목표와 상호 협업을 동시에 학습해야 하는 다목표 다에이전트 강화학습 환경에서 효율적 탐색을 어떻게 달성할 수 있는가?
RQ2단일 에이전트 목표 달성이 다에이전트 조율 이전에 사전 훈련되는 이단계 커리큘럼 학습 접근법이 샘플 효율성과 수렴 속도를 향상시킬 수 있는가?
RQ3다목표 MARL에서 신용 할당을 어떻게 국소화하고 체계화할 수 있는가? 특히 한 에이전트의 행동이 다른 에이전트의 목표 달성에 미치는 영향을 정확히 기여도 할당할 수 있는가?
RQ4함수 증강을 통해 단일 에이전트와 다에이전트 정책 및 가치 함수 간의 격차를 얼마나 효과적으로 메울 수 있는가? 이 과정에서 치명적인 기억 상실이나 과도한 파라미터 증가를 방지할 수 있는가?
RQ5제안된 CM3 프레임워크가 고차원적이고 복잡한 다목표 다에이전트 환경에서 기존 MARL 기준선을 능가하는가?

주요 결과

CM3는 QMIX, COMA, IAC, QV의 직접적 변형 대비 협동적 탐색(어려운 형성)에서 훨씬 더 가파른 수렴 속도를 달성하여 학습 시간을 최대 80%까지 단축시켰다.
SUMO 교통 시뮬레이터에서, CM3는 이중 차선 융합 시나리오에서 모든 기준선을 능가했으며, 더 높은 성공률과 더 적은 충돌로 더 부드러운 협업을 달성했다.
체커 환경에서 CM3는 기준선 대비 전략적 협업을 더 빨리 학습했고, 50,000개의 학습 스텝 후 25% 높은 승률을 기록했다.
이단계 커리큘럼은 에이전트가 먼저 개인 목표에 집중함으로써 샘플 복잡도를 감소시켜, 다에이전트 단계에서 더 안정적이고 효율적인 탐색을 가능하게 했다.
함수 증강 덕분에 CM3는 사전 훈련된 1단계 네트워크를 최소한의 추가 파라미터로 재사용할 수 있었고, 성능 유지와 함께 학습 오버헤드를 줄였다.
신용 함수는 행동이 목표 달성에 기여하는 정도를 정밀하게 기여도 할당함으로써, 정책 갱신을 향상시키고 다에이전트 상호작용에서의 신용 할당 모호성을 줄였다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.