QUICK REVIEW

[논문 리뷰] Multiagent Soft Q-Learning

Ermo Wei, Drew Wicke|arXiv (Cornell University)|2018. 04. 25.

Reinforcement Learning in Robotics참고 문헌 22인용 수 45

한 줄 요약

본 논문은 상대적 과잉 일반화를 완화하고 공동 행동 조정력을 향상시키기 위해 소프트 Q-러닝과 심층 에너지 기반 정책을 활용하는 오프폴리시(off-policy), 중앙집중식 학습-분산 실행 방식인 Multiagent Soft Q-Learning을 제시한다.

ABSTRACT

Policy gradient methods are often applied to reinforcement learning in continuous multiagent games. These methods perform local search in the joint-action space, and as we show, they are susceptable to a game-theoretic pathology known as relative overgeneralization. To resolve this issue, we propose Multiagent Soft Q-learning, which can be seen as the analogue of applying Q-learning to continuous controls. We compare our method to MADDPG, a state-of-the-art approach, and show that our method achieves better coordination in multiagent cooperative tasks, converging to better local optima in the joint action space.

연구 동기 및 목표

연속 행동을 가지는 협력적 다중에이전트 강화학습에서 조정의 도전과 상대적 과잉 일반화 병리 현상에 대한 동기를 제시한다.
연속 게임에서 조정을 향상시키기 위한 중앙집중식 학습-분산 실행 프레임워크를 제안한다.
상대적 과잉 일반화를 피하고 공동 행동 공간에서 국소 최적화를 향상시키는 소프트 Q-러닝과 심층 에너지 기반 정책을 통합한 Multiagent Soft Q-Learning 방법을 개발한다.

제안 방법

협력적 확률적 게임 내에서 문제를 형식화하고 정책 그레이디언트 방법에 대한 상대적 과잉 일반화 병리 현상을 분석한다.
다모드(multimodal) 정책을 가능하게 하는 심층 에너지 기반 정책을 갖춘 Soft Q-Learning을 채택하여 공동 행동 공간의 더 나은 탐색을 가능하게 한다.
에이전트 간에 공유되는 중앙 집중식 크리틱과 각 에이전트의 정책을 사용하고, 탐색을 이끌고 수렴을 촉진하기 위해 엔트로피 온도 α를 어닐링한다.
에이전트가 중앙 Q-함수를 통해 공동 행동 정책을 학습하고 SVGD를 사용한 근사화를 위한 소프트맥스 유사 에너지 기반 정책에서 샘플링하는 다중 에이전트 확장을 설명하고 구현한다.
중앙 집중식 크리틱 업데이트와 에이전트별 공동 행동 정책 업데이트를 요약한 알고리즘 1을 제공한다.
MADDPG와 비교하고 더 나은 균형으로의 수렴이 개선되었음을 보이기 위해 두 에이전트, 단일 상태의 연속 게임에서 실증 평가를 수행한다.

실험 결과

연구 질문

RQ1연속 게임에서 상대적 과잉 일반화를 극복하기 위해 Soft Q-Learning 기반 접근법을 활용한 중앙집중식 학습이 가능합니까?
RQ2엔트로피 규칙화를 갖춘 심층 에너지 기반 정책을 활용하는 것이 공동 행동 공간에서 다모드 탐색과 조정을 향상시키니까요?
RQ3협력 과제에서 더 나은 국지 최적해로의 수렴 면에서 Multiagent Soft Q-Learning은 MADDPG와 어떻게 비교됩니까?
RQ4더 나은 공동 행동을 발견하고 확정하는 데 있어 온도 매개변수 α의 어닐링 효과는 어떻습니까?

주요 결과

Multiagent Soft Q-Learning은 MADDPG보다 테스트된 연속 조정 과제에서 더 자주 더 나은 균형으로 수렴한다(72% vs MADDPG는 더 나은 균형으로 수렴한 적이 없음).
알파를 어닐링하면 방법이 전역 공동 행동 탐색에서 더 나은 공동 행동을 활용으로 전환하는 데 도움이 되어 조정이 향상된다.
이 접근법은 중앙집중식 학습을 활용하여 공동 행동 Q-함수에 접근하고 분산 실행을 유지하여 공동 적응(co-adaptation)을 감소시킨다.
이 방법은 소프트 Q-러닝의 이점을 상속받아 다모드 정책 분포를 가능하게 하고 연속 게임에서 공동 행동 공간의 탐색을 개선한다.
실증 평가는 Max of Two Quadratics 게임을 사용하여 공동 행동 공간에서 개선된 조정과 국지 최적화를 보여준다.

더 나은 연구,지금 바로 시작하세요

연구 설계부터 논문 작성까지, 연구 시간을 획기적으로 줄여보세요.

카드 등록 없음 · 무료 플랜 제공

이 리뷰는 AI가 만들고, 인간 에디터가 검토했습니다.