Skip to main content
QUICK REVIEW

[논문 리뷰] Multiagent Soft Q-Learning

Ermo Wei, Drew Wicke|arXiv (Cornell University)|2018. 04. 25.
Reinforcement Learning in Robotics참고 문헌 22인용 수 45
한 줄 요약

본 논문은 상대적 과잉 일반화를 완화하고 공동 행동 조정력을 향상시키기 위해 소프트 Q-러닝과 심층 에너지 기반 정책을 활용하는 오프폴리시(off-policy), 중앙집중식 학습-분산 실행 방식인 Multiagent Soft Q-Learning을 제시한다.

ABSTRACT

Policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in the joint-action space, and as we show, they are susceptable to a game-theoretic pathology known as relative overgeneralization. To resolve this issue, we propose Multiagent Soft Q-learning, which can be seen as the analogue of applying Q-learning to continuous controls. We compare our method to MADDPG, a state-of-the-art approach, and show that our method achieves better coordination in multiagent cooperative tasks, converging to better local optima in the joint action space.

연구 동기 및 목표

  • 연속 행동을 가지는 협력적 다중에이전트 강화학습에서 조정의 도전과 상대적 과잉 일반화 병리 현상에 대한 동기를 제시한다.
  • 연속 게임에서 조정을 향상시키기 위한 중앙집중식 학습-분산 실행 프레임워크를 제안한다.
  • 상대적 과잉 일반화를 피하고 공동 행동 공간에서 국소 최적화를 향상시키는 소프트 Q-러닝과 심층 에너지 기반 정책을 통합한 Multiagent Soft Q-Learning 방법을 개발한다.

제안 방법

  • 협력적 확률적 게임 내에서 문제를 형식화하고 정책 그레이디언트 방법에 대한 상대적 과잉 일반화 병리 현상을 분석한다.
  • 다모드(multimodal) 정책을 가능하게 하는 심층 에너지 기반 정책을 갖춘 Soft Q-Learning을 채택하여 공동 행동 공간의 더 나은 탐색을 가능하게 한다.
  • 에이전트 간에 공유되는 중앙 집중식 크리틱과 각 에이전트의 정책을 사용하고, 탐색을 이끌고 수렴을 촉진하기 위해 엔트로피 온도 α를 어닐링한다.
  • 에이전트가 중앙 Q-함수를 통해 공동 행동 정책을 학습하고 SVGD를 사용한 근사화를 위한 소프트맥스 유사 에너지 기반 정책에서 샘플링하는 다중 에이전트 확장을 설명하고 구현한다.
  • 중앙 집중식 크리틱 업데이트와 에이전트별 공동 행동 정책 업데이트를 요약한 알고리즘 1을 제공한다.
  • MADDPG와 비교하고 더 나은 균형으로의 수렴이 개선되었음을 보이기 위해 두 에이전트, 단일 상태의 연속 게임에서 실증 평가를 수행한다.

실험 결과

연구 질문

  • RQ1연속 게임에서 상대적 과잉 일반화를 극복하기 위해 Soft Q-Learning 기반 접근법을 활용한 중앙집중식 학습이 가능합니까?
  • RQ2엔트로피 규칙화를 갖춘 심층 에너지 기반 정책을 활용하는 것이 공동 행동 공간에서 다모드 탐색과 조정을 향상시키니까요?
  • RQ3협력 과제에서 더 나은 국지 최적해로의 수렴 면에서 Multiagent Soft Q-Learning은 MADDPG와 어떻게 비교됩니까?
  • RQ4더 나은 공동 행동을 발견하고 확정하는 데 있어 온도 매개변수 α의 어닐링 효과는 어떻습니까?

주요 결과

  • Multiagent Soft Q-Learning은 MADDPG보다 테스트된 연속 조정 과제에서 더 자주 더 나은 균형으로 수렴한다(72% vs MADDPG는 더 나은 균형으로 수렴한 적이 없음).
  • 알파를 어닐링하면 방법이 전역 공동 행동 탐색에서 더 나은 공동 행동을 활용으로 전환하는 데 도움이 되어 조정이 향상된다.
  • 이 접근법은 중앙집중식 학습을 활용하여 공동 행동 Q-함수에 접근하고 분산 실행을 유지하여 공동 적응(co-adaptation)을 감소시킨다.
  • 이 방법은 소프트 Q-러닝의 이점을 상속받아 다모드 정책 분포를 가능하게 하고 연속 게임에서 공동 행동 공간의 탐색을 개선한다.
  • 실증 평가는 Max of Two Quadratics 게임을 사용하여 공동 행동 공간에서 개선된 조정과 국지 최적화를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.