Skip to main content
QUICK REVIEW

[논문 리뷰] Macro-Action-Based Deep Multi-Agent Reinforcement Learning

Yuchen Xiao, Joshua Hoffman|arXiv (Cornell University)|2020. 04. 18.
Reinforcement Learning in Robotics인용 수 2
한 줄 요약

이 논문은 다중 에이전트 강화 학습에서 분산형 및 중심집중형 매크로행동가치 함수를 학습하기 위한 두 가지 DQN 기반 방법을 제안하며, 높은 수준의 이성적이고 비동기적인 행동을 효율적으로 학습할 수 있도록 새로운 매크로행동 경로 리PLAY 버퍼를 도입한다. 제안된 방법은 벤치마크 및 대규모 도메인에서 원시행동 기반 방법에 비해 뛰어난 성능과 확장성을 보여준다.

ABSTRACT

In real-world multi-robot systems, performing high-quality, collaborative behaviors requires robots to asynchronously reason about high-level action selection at varying time durations. Macro-Action Decentralized Partially Observable Markov Decision Processes (MacDec-POMDPs) provide a general framework for asynchronous decision making under uncertainty in fully cooperative multi-agent tasks. However, multi-agent deep reinforcement learning methods have only been developed for (synchronous) primitive-action problems. This paper proposes two Deep Q-Network (DQN) based methods for learning decentralized and centralized macro-action-value functions with novel macro-action trajectory replay buffers introduced for each case. Evaluations on benchmark problems and a larger domain demonstrate the advantage of learning with macro-actions over primitive-actions and the scalability of our approaches.

연구 동기 및 목표

  • 불확실성 하에서 비동기적이고 고수준의 의사결정을 취하는 데 도전하는 문제를 해결하기 위해.
  • 원시행동에서 매크로행동으로의 딥 다중 에이전트 강화 학습의 확장을 통해 더 효율적이고 확장 가능한 학습을 가능하게 하기 위해.
  • 딥 Q 네트워크를 사용하여 분산형 및 중심집중형 매크로행동가치 함수 학습 방법을 개발하기 위해.
  • 다중 에이전트 시퀀스의 시간적 및 계층적 구조를 유지하는 전용 매크로행동 경로 리PLAY 버퍼를 도입하기 위해.
  • 제안된 방법을 벤치마크 및 대규모 도메인에서 평가하여 원시행동 기반 베이스라인에 비해 열등함을 입증하기 위해.

제안 방법

  • 논문은 고수준 행동의 시퀀스와 그 결과를 저장하여 다중 에이전트 간의 시간적 의존성을 유지하는 매크로행동 경로 리PLAY 버퍼를 도입한다.
  • 분산형 학습을 위해, 매크로행동 리PLAY 버퍼를 사용하여 각 에이전트별로 독립적으로 DQN 기반 매크로행동가치 함수를 훈련시킨다.
  • 중앙집중형 학습을 위해, 동일한 리PLAY 버퍼를 사용하여 공동 매크로행동가치 함수를 학습하는 중심집중형 크리틱 네트워크가 정책 최적화를 안내한다.
  • 매크로행동은 시간적으로 연장된 고수준 행동으로 정의되어, 에이전트가 더 긴 시간 간격을 고려해 사고할 수 있도록 한다.
  • 리PLAY 버퍼 설계는 전체 매크로행동 경로를 저장함으로써 오프정책 학습을 지원하여 데이터 효율성을 향상시킨다.
  • 이 프레임워크는 이산적 및 연속적 매크로행동 모두에 적용 가능하여 과제 표현의 유연성을 제공한다.

실험 결과

연구 질문

  • RQ1매크로행동은 원시행동에 비해 협동적 다중 에이전트 강화 학습에서 샘플 효율성과 성능을 향상시키는가?
  • RQ2제안된 매크로행동 경로 리PLAY 버퍼는 다중 에이전트 환경에서 학습 안정성과 수렴성을 어떻게 향상시키는가?
  • RQ3분산형 및 중심집중형 매크로행동가치 학습 방법은 얼마나 큰 다중 에이전트 도메인으로 확장 가능한가?
  • RQ4매크로행동을 사용한 학습은 복잡한 과제에서 더 통합되고 고급 수준의 협동 행동을 이끌어내는가?
  • RQ5기본 DQN 기반 방법에 비해 원시행동을 사용하는 표준 방법과 비교했을 때 제안된 방법의 성능 및 확장성은 어떠한가?

주요 결과

  • 제안된 매크로행동 기반 방법은 벤치마크 문제에서 누적 수익과 과제 완료 비율 측면에서 원시행동 기반 베이스라인보다 뛰어난 성능을 보였다.
  • 매크로행동 경로 리PLAY 버퍼의 사용은 분산형 및 중심집중형 학습 설정 모두에서 더 빠른 수렴과 향상된 데이터 효율성을 이끌어냈다.
  • 중심집중형 매크로행동 학습 접근법은 특히 복잡한 조율 과제에서 분산형 버전보다 높은 성능을 달성했다.
  • 이 방법들은 더 큰 도메인으로 효과적으로 확장되어, 비동기적 의사결정이 필요한 실세계 다중 로봇 시스템에의 적용 가능성을 입증했다.
  • 매크로행동을 사용한 학습은 원시행동 정책에 비해 더 통합되고 시간적으로 구조화된 행동을 유도했다.
  • 프레임워크는 원시행동 방법으로는 어렵게 발견할 수 있는 고수준의 장기적 조율 전략을 학습할 수 있도록 했다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.