QUICK REVIEW

[논문 리뷰] Macro-Action-Based Deep Multi-Agent Reinforcement Learning

Yuchen Xiao, Joshua Hoffman|arXiv (Cornell University)|2020. 04. 18.

Reinforcement Learning in Robotics인용 수 2

한 줄 요약

이 논문은 다중 에이전트 강화 학습에서 분산형 및 중심집중형 매크로행동가치 함수를 학습하기 위한 두 가지 DQN 기반 방법을 제안하며, 높은 수준의 이성적이고 비동기적인 행동을 효율적으로 학습할 수 있도록 새로운 매크로행동 경로 리PLAY 버퍼를 도입한다. 제안된 방법은 벤치마크 및 대규모 도메인에서 원시행동 기반 방법에 비해 뛰어난 성능과 확장성을 보여준다.

ABSTRACT

In real-world multi-robot systems, performing high-quality, collaborative behaviors requires robots to asynchronously reason about high-level action selection at varying time durations. Macro-Action Decentralized Partially Observable Markov Decision Processes (MacDec-POMDPs) provide a general framework for asynchronous decision making under uncertainty in fully cooperative multi-agent tasks. However, multi-agent deep reinforcement learning methods have only been developed for (synchronous) primitive-action problems. This paper proposes two Deep Q-Network (DQN) based methods for learning decentralized and centralized macro-action-value functions with novel macro-action trajectory replay buffers introduced for each case. Evaluations on benchmark problems and a larger domain demonstrate the advantage of learning with macro-actions over primitive-actions and the scalability of our approaches.

연구 동기 및 목표

불확실성 하에서 비동기적이고 고수준의 의사결정을 취하는 데 도전하는 문제를 해결하기 위해.
원시행동에서 매크로행동으로의 딥 다중 에이전트 강화 학습의 확장을 통해 더 효율적이고 확장 가능한 학습을 가능하게 하기 위해.
딥 Q 네트워크를 사용하여 분산형 및 중심집중형 매크로행동가치 함수 학습 방법을 개발하기 위해.
다중 에이전트 시퀀스의 시간적 및 계층적 구조를 유지하는 전용 매크로행동 경로 리PLAY 버퍼를 도입하기 위해.
제안된 방법을 벤치마크 및 대규모 도메인에서 평가하여 원시행동 기반 베이스라인에 비해 열등함을 입증하기 위해.

제안 방법

논문은 고수준 행동의 시퀀스와 그 결과를 저장하여 다중 에이전트 간의 시간적 의존성을 유지하는 매크로행동 경로 리PLAY 버퍼를 도입한다.
분산형 학습을 위해, 매크로행동 리PLAY 버퍼를 사용하여 각 에이전트별로 독립적으로 DQN 기반 매크로행동가치 함수를 훈련시킨다.
중앙집중형 학습을 위해, 동일한 리PLAY 버퍼를 사용하여 공동 매크로행동가치 함수를 학습하는 중심집중형 크리틱 네트워크가 정책 최적화를 안내한다.
매크로행동은 시간적으로 연장된 고수준 행동으로 정의되어, 에이전트가 더 긴 시간 간격을 고려해 사고할 수 있도록 한다.
리PLAY 버퍼 설계는 전체 매크로행동 경로를 저장함으로써 오프정책 학습을 지원하여 데이터 효율성을 향상시킨다.
이 프레임워크는 이산적 및 연속적 매크로행동 모두에 적용 가능하여 과제 표현의 유연성을 제공한다.

실험 결과

연구 질문

RQ1매크로행동은 원시행동에 비해 협동적 다중 에이전트 강화 학습에서 샘플 효율성과 성능을 향상시키는가?
RQ2제안된 매크로행동 경로 리PLAY 버퍼는 다중 에이전트 환경에서 학습 안정성과 수렴성을 어떻게 향상시키는가?
RQ3분산형 및 중심집중형 매크로행동가치 학습 방법은 얼마나 큰 다중 에이전트 도메인으로 확장 가능한가?
RQ4매크로행동을 사용한 학습은 복잡한 과제에서 더 통합되고 고급 수준의 협동 행동을 이끌어내는가?
RQ5기본 DQN 기반 방법에 비해 원시행동을 사용하는 표준 방법과 비교했을 때 제안된 방법의 성능 및 확장성은 어떠한가?

주요 결과

제안된 매크로행동 기반 방법은 벤치마크 문제에서 누적 수익과 과제 완료 비율 측면에서 원시행동 기반 베이스라인보다 뛰어난 성능을 보였다.
매크로행동 경로 리PLAY 버퍼의 사용은 분산형 및 중심집중형 학습 설정 모두에서 더 빠른 수렴과 향상된 데이터 효율성을 이끌어냈다.
중심집중형 매크로행동 학습 접근법은 특히 복잡한 조율 과제에서 분산형 버전보다 높은 성능을 달성했다.
이 방법들은 더 큰 도메인으로 효과적으로 확장되어, 비동기적 의사결정이 필요한 실세계 다중 로봇 시스템에의 적용 가능성을 입증했다.
매크로행동을 사용한 학습은 원시행동 정책에 비해 더 통합되고 시간적으로 구조화된 행동을 유도했다.
프레임워크는 원시행동 방법으로는 어렵게 발견할 수 있는 고수준의 장기적 조율 전략을 학습할 수 있도록 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.